目前表现最好的方法是集成系统将多级底层特征和高层语义特征结合起来的方法。
1)可以将大容量的CNNs(卷积神经网络)应用于自上而下的候选区域以便定位和分割对象
(2)当编辑训练数据稀缺时,
监督辅助任务的预训练,
之后进行特定领域的微调,
可以显著提升性能。
因为将候选区域和CNN结合起来故称为R-CNN(Region with CNN features)。
SIFT和HOG都是统计分块方向直方图特征
,我们可以粗略地与 v1中的复杂细胞相关联比较
,v1是灵长类动物视觉通路中的第一个皮层区域,
但其识别的过程肯定发生在后面的几个阶段,
这也表明可能存在对于识别过程更具信息性的用于计算特征的多级过程。
利用深度网络来进行目标定位,仅使用少量带注释的检测数据来训练高容量模型。
我们利用“区域识别”的方法来解决CNN难以定位的问题
检测过程的另一个难点在于有标签的数据量稀缺
通常用于解决该问题的方法是利用无监督的预训练,之后利用有监督的微调
本文的第二个贡献点在于使用利用大容量有标签的辅助训练集 ILSVRC 来进行有监督的预训练,
之后利用小数据集 PASCAL 进行特定区域的微调
,其一,所有类别的CNN参数共享,其二,由CNN所抽取到的特征向量用于最终分类步骤的维数较低。例如带有编码的空域金字塔。
参数共享的结果是用于计算候选区域和特征的时间分摊到了所有的类别中(GPU上是13s/image,CPU是53s/image)
有监督的预训练 特定领域的微调 (SGD来调节CNN的参数)
目标类别分类:
standard hard negative mining method。
DPM类型的第一种特征学习方法——DPM ST[28],利用“草图标记”概率的直方图增强HOG特征,直观地,草图标记是通过图像块中心的轮廓紧密的分布,通过随机森林在每个像素处计算草图标记概率,该森林经过训练以将35×35像素斑块分类为150个草图标记或背景之一。
第二种方法是DPM HSC[31],该方法将HOG拥稀疏编码直方图代替(Histogram of Sparse Codes,HSC),为了计算HSC,每个像素点的稀疏编码激活过程都是利用学习到的字典获得的。