文章提出一种基于多尺度滑窗的CNN特征的编码方法。
1 Information
发表会议:ECCV2014
2 Motivation
Gloabl CNN:编码了图片的空间结构信息,对类内差异容忍度差,globally ordered
BOW:完全丢失图片的空间结构信息,orderless
对于场景分类问题,我们希望一个在小的region,空间结构globally ordered,比如region内的一个船它的结构是很强的约束,船帆必须在船身上方;在大的region,由于场景本身的布局差异,空间结构orderless,比如region内的两个船,它们互相的结构要求就很弱,A船可以在B船的上下左右任意方位。因此,需要基于CNN特征得到更加orderless的特征,使特征在准确刻画局部信息的同时,包容类内差异,更加invariant。
同时,基于一个observation:我们可以根据一个region判定整幅图的类别,如图b和f,对红色框的region提取CNN特征,可以预测出图片真实label。