FashionSearchNet
(写了一半,现在认为,这种方法就是在AMNet的基础上添加了属性定位)
针对于图像检索中替换属性的问题,一个难点就在于如何表示产品中每个属性的特征。FSNet使用了一种弱定位的方法提取属性区域。通过这种方式,能够使不相关的部分不再对图像检索产生影响。
1. FSNet使用背景
有部分学者已经对如何替换图像中的属性做出了自己的研究,如AMNet。但是这些方法都没有从属性定位的方面进行探索。属性定位其实是由Learning Deep Features for Discriminative Localization这篇论文提出的,在本文中也得到了很好的使用。
2. FSNet核心要点
1. 属性定位
首先使用类似Alexnet的结构对图像进行属性定位。属性定位的方法来自于Learning Deep Features for Discriminative Localization。属性定位就是为了更好的表示一种属性。在神经网络中输入一张图片,通过Alexnet进行卷积,但将Alexnet的两个全连接层换成卷积层,并进行GAP操作,GAP公式如下:
∑ k ( x I ( k ) = ∑ i , j c o n v 7 k ( I , i , j ) ) \sum_{k}(x_{I}(k)=\sum_{i,j}conv7_{k}(I,i,j)) k∑(xI(k)=i,j∑conv7k(I,i,j))
这里的 x I ( k ) x_{I}(k) xI(k)是图像 I I I中的第 k k k个通道, c o n v 7 k ( I , i , j ) conv7_{k}(I,i,j) conv7k(I,i,j)是第七卷积层中的第k个特征图的 ( i , j ) (i,j) (i,j)这个位置。进而我们可以定义属性激活图AAMs为:
M a c ( I , i , j ) = ∑ k W a ( k , c ) c o n v 7 K ( I , i , j ) M_{a_{c}}(I,i,j)=\sum_{k}W_{a_{(k,c)}}conv7_{K}(I,i,j) Mac(I,i,j)=k∑Wa(k,c)conv7K(I,i,j)
这里的c是类别, W a ( k , c ) W_{a_{(k,c)}} Wa(k,c)就是属性a在第k个特征图里属于类别c的权重。 W a W_{a} Wa使用下述的分类损失函数进行更新:
L c = − ∑ I = 1 N ∑ a = 1 A l o g ( p ( g I a ∣ x I w a ) ) L_{c}=-\sum_{I=1}^{N}\sum_{a=1}^{A}log(p(g_{I_{a}}|x_{I}w_{a})) Lc=−I=1∑Na=1∑Alog(p(gI