摘要:本文提出了一种新型的framework,可以为图像识别任务学习更加精确的特征。它由两个parallel subnetwork组成,每个网络有两个functional parts:feature extractor和image classifier。每个子网络单独提取特征并通过Auxiliary Classifier做出预测,the two-streams特征还会"fused to from a unified representation"。
Related Work
与文献[23]对比:1)该文的两个DCNN的输出通过multiply来assemble每个location的信息,而本文设计使得高层的每个单元更精确地描述它对应的image patch;2)该文使用bilinnear(双线性)池化作为融合方法,而本文仅采用简单的SUM方法。事实上,由于权重共享,该文中表现最好的bilinear model最终是通过a single DCNN实现的。然而,本文拥有两个不共享权重且互补的DCNN;3)第三,双线性汇聚后的特征具有高维特性,可以更好地模拟细粒度类别的细微差别,但需要更多的训练复杂度和内存成本。 相比之下,DualNet的计算效率相当高。DualNet不是一个特定的网络,而是一个相当通用的框架,可以推广多种DCNN体系结构。
Approach
DCNN是通过目标损失函数来训练的,也就是说,训练过程是由最高层根据反向传播生成的errors来驱动的。 因此,在single network的优化过程中,一些独特的细节(低层次的,但对于区分强相似度类十分关键)可能会被中间层丢弃,或者被大量无用的信息淹没,因为浅层所接受到的用于参数更新的损失信号已经被许多上层过滤过了。换句话说,对于single network很难学到输入图像的whole details。
为了解决这个问题,我们提出了一个由两个parallel networks组成的DualNet framework,可以从输入图像中学习互补的特征,也就是说,一个网络可以学习关于兴趣对象的被另一个网络missing掉的细节,因此在融合之后更丰富、精确的图像表示就可以被提取来进行识别了。