这篇论文整体而言没有什么创新点,性能也不高,但有一些小trick还不错。
上图是网络结构。
step1:通过左边的网络的四个分支生成特征,进行属性预测。因为属性有全局也有局部的,所以最左边的googlenet分支提取全局的特征,右边的三个分支分别对图片水平三分后的局部提取特征,最后结合起来进行属性预测。
step2:通过右边的网络进行re-id。loss为triplet loss + 属性loss。
triplet loss即分别计算positive和negative图片与anchor图片之间的特征距离和属性预测向量的距离,使得positive尽可能靠近anchor,negative尽可能远离anchor
属性loss居然看遍全文都没有公式出现,那就活该被拒咯!我的理解是:作者认为属性大部分都是二分的,0代表没出现,1代表出现了,比如hat这个属性,大部分图片都是0,那么左边的这个网络很可能在hat为1的时候预测为0,就预测错误了。对于这些很可能预测错误的属性,应该给他们一个较小的权重。那么属性loss就是单纯的计算属性向量之间的距离,使得positive尽可能靠近anchor,negative尽可能远离anchor。