摘要
我们提出了一个新颖的框架,用于扩增机器学习的反例数据集。反例是分类错误的示例,对重新训练和改进模型具有重要意义。我们框架的关键组件包括一个反例生成器,它生成由模型和错误表错误分类的数据项。错误表是一种新颖的数据结构,用于存储与错误分类有关的信息。它可用于解释模型的漏洞,并用于有效地生成扩增的反例。我们将提出的框架与经典的扩增技术进行了比较——基于深度神经网络的自动驾驶中目标检测的案例研究,从而证明了该框架的有效性。
介绍
由机器学习算法(尤其是深度神经网络)生成的模型正被部署在值得高度关注的领域中,需要更高的准确性和保证力。然而使用深度学习来学习高精度模型受到大量数据需求的限制,甚至进一步受到劳动密集型标签的需求的限制。数据扩增通过使用保留标签的变换扩大训练集来克服数据的不足。传统的数据扩增方案涉及几何变换,这些变换会改变图像的几何形状(例如,旋转,缩放,裁切或翻转),以及改变颜色通道的光度转换。这些技术的有效性最近已得到证明。像前面提到的方法一样,传统的扩增方案将数据添加到训练集中,希望提高模型的准确性,而无需考虑模型已经学习了哪些特征。最近,一种复杂的数据扩增技术被提出,该技术使用生成对抗网络(一种能够生成合成数据的特殊类型的神经网络)来充实训练集。也有诸如hard negative mining之类的扩增技术