行人重识别之特征向量正交化
SVDNet for Pedestrian Retrieval
原文链接:https://arxiv.org/pdf/1703.05693.pdf
这篇文章的核心思想如下:
虽然特征向量的维度不小(一般为2048),但是网络经过训练后,特征向量往往是高度相关的,降低了特征向量的表达能力,进而降低了REID的性能。所以,如果能够对特征向量进行去相关(正交化),提升特征向量的表达能力,那么REID的性能便会随之提升。
首先,通过文中的例子直观感受一下,特征向量高度相关的后果。
经过左侧三类图片的训练,特征向量的三个维度分别表示红、粉、蓝。红色和粉色的相关性就比较高。在对右侧两幅图片进行表示时,虽然二者对于蓝色向量的差别较大,但是两者关于红色和粉色向量的差别很小,所以导致两者最后的特征向量差距很小。这便是特征向量高度相关的恶果。
其次,介绍一下网络结构和训练方法。
在全连接层后面增加Eigenlayer(一般在倒数第二个全连接层后面,因为加在最后一个全连接层后面,训练很难拟合),这一层完全是线性操作,对输入向量进行奇异值分解,输出正交的特征向量(彩色部分),再将该向量输入到全连接层,进行分类。
训练过程如下:
在反复迭代后,Eigenlayer就做到了和原网络融为一体。而且Eigenlayer的存在也使得输入Eigenlayer的特征向量的表达能力不断提升。
最后,定量看一看特征向量正交程度和性能之间的关系。
粉线是衡量特征向量正交性的变量,越大代表正交性越好。可以看出,随着迭代的进行,正交性越来越好,性能也随之提高。
总结:大三的时候一个中科院博士生曾经对我说过,当你做的越来越多,越来越深入,你会发现CV其实是一个玩数学的东西,很多大佬都是数学非常6的。这篇文章或许给了我们一些启发,有时候直接从数学原理(比如本文的奇异值分解)出发,或许真的会有巨大的提升。
完
欢迎讨论 欢迎吐槽