0.摘要:
用于图像分类任务的神经网络假定在推理过程中任何给定的图像都属于训练类别之一。这种封闭的假设在现实世界的应用中受到了挑战,因为模型可能会遇到未知类别的输入。开放集识别的目的是通过拒绝未知类别而正确分类已知类别来解决这个问题。在本文中,我们建议利用从已知分类器中获得的基于梯度的表征,只用已知类别的实例来训练一个未知的检测器。梯度对应于正确表示一个给定样本所需的模型更新的数量,我们利用它来了解模型用其学到的特征来描述输入的能力。我们的方法可以用于任何在已知类别上以监督方式训练的分类器,而不需要对未知样本的分布进行明确建模。我们表明,我们基于梯度的方法在开放集分类中比最先进的方法高出11.6%。
1.引言:
尽管深度神经网络在许多应用中取得了重大进展,但众所周知,当它们部署在真实世界的环境中时,很容易失败,因为它们经常遇到与训练条件不同的数据[1, 2]。它们在很大程度上依赖于隐含的封闭世界假设,即推理过程中的任何给定输入都属于训练数据中的一个或多个类别。受限于训练集所定义的已知数,神经网络将任何输入图像归入已知类别,即使给定的输入与训练数据有很大不同。此外,神经网络倾向于做出过于自信的预测,即使是不熟悉的输入[3, 4],使得区分未知数和已知数更具挑战性。神经网络的这些类型的行为在用于安全关键的应用时,如自动驾驶汽车和医疗诊断,会产生严重的后果。开放集识别通过消除封闭世界的假设来解决这个问题。相反,一个开放集分类器假设测试样本可能来自任何类别,甚至是在模型训练期间未知的类别。文献中的大多数方法可以分为两类:判别性模型和生成性模型。鉴别性建模方法[5, 6, 7, 8, 9]旨在学习已知样本的分布,以区分用于分类的已知类别,以及用于未知检测的已知和未知类别。生成建模方法[10, 11]试图合成未知类的样本以帮助区分已知类的样本。然而,几乎所有现有的方法都局限于学习的特征,这可能不足以捕捉未知类的测试样本的异常。在这项工作中,我们提出利用基于梯度的表征来进行开放集识别。作为我们以前工作的延伸[12],我们进一步验证了混杂标签的概念,以生成基于梯度的表征,来区分模型熟悉的输入和那些被认为是未知的输入。我们不是仅仅依靠从一个模型中学习到的特征,而是利用梯度来获得关于对其参数进行必要调整以正确表示给定输入的洞察力。我们的经验表明,所获得的表征可以在一个开放的识别环境中使用,在这个环境中,在训练期间没有未知类的样本可以用来捕捉已知和未知的区别。