论文题目: 基于贡献的多流特征距离融合,k分布再排序的人员重新识别方法
目录
一 、 摘要
主要包含了有以下内容:
- BPEN 局部抽取和对齐(用到了CPM)
- 多流贡献框架(MSCF)来融合具有不同贡献的特征距离并生成最终的图像相似度描述符
- FCNs(全卷积网络) 语义分割,得到前景图像,生成mask feature
- contribution feedback module 动态生成贡献系数 (用到了分段学习策略优化反馈模块)
- K-distribution re-ranking improve performance
--------------------------------------------------------------------------------------------------------------------------------------------------------------
二 、 介绍
目前行人冲识别方法对比研究:
全局特征:缺失细节 【1-2】
局部特征:不对齐问题【3-4】
作者提出:
- body partition extraction network(BPEN) 对齐身体区域,利用了key-points并且生成了三个身体区域。
- multi-stream contribution framework(MSCF),一个全局特征,三个局部特征,加入语义分割生成的mask 特征,总共五个特征。另外,语义分割,减小了背景混杂信息的干扰。
- 特征融合这一块,因为包含了全局和局部,先前的工作都是直接融合生成新的特征。但是容易因为不合适的融合策略导致忽略细节,为了平衡全局和局部,提出了三点:
- (1)多特征距离融合方法,每个图片通过MSCF得到五个特征。两个图片就是五对特征。可以根据每个特征的贡献来融合这些距离
- (2) 贡献反馈模块自动的生成贡献系数。
- (3)贡献系数联合特征距离生成最终距离。
- 最后距离作为图片相似性描述符。
- 完成初次检索之后,可以通过re-ranking来提高排序质量。很多研究通过重新计算probe和gallery之间的距离进行重排序。【7-10】,通过这种方式,可以将正确匹配的图像放在重新排列的列表的顶部。这篇论文提出了一种新的重新排名策略,即k-distribution re-ranking,并引入了分布得分的概念。 这将为每个图库图像提供分布得分,并根据其得分修改重新排名列表。
--------------------------------------------------------------------------------------------------------------------------------------------------------------
三 、相关工作
度量学习
CNN-based metric learning method aims to obtain the similarities between two images。
表征学习
Representation learning aims to obtain a feature descriptor from the original person image for re-ID。
图片语义分割
语义分割是在像素级别上的分类,属于同一类的像素都要被归为一类,因此语义分割是从像素级别来理解图像的。
语义分割参考链接: https://zhuanlan.zhihu.com/p/37801090.
(语义分割综述,写的非常好。)
Re-ranking
扩展阅读链接: https://blog.csdn.net/lwplwf/article/details/84862054.
- Shenet al.[26] propose k-nearest neighbors to optimize the ranking list.
- Lenget al.[9] calculate a new similarity by fusing context similarity and con-tent similarity.
- Qinet al.[27] obtain a new ranking listthroughk-reciprocal neighbors.
- Zhong et al.[28] combine the Jaccard distance and the original distance, complete re-ranking with k-reciprocal encoding.
- Guoet al.[29] exploita density-adaptive kernel technique to perform efficient re-ranking for person re-ID
--------------------------------------------------------------------------------------------------------------------------------------------------------------
三 、 多流贡献框架(MSCF)
如图所示,MSCF 的整体流程如图所示,分为了两个子部分:多流特征提取网络和多流特征融合网络,而且,BPCF嵌入在提取网络中,贡献反馈模块在融合网络中至关重要(提供系数)。
-------------------------------------------------------------------------------------------------------------------------------------------------------------------
A 、BODY PARTITION EXTRACTION NETWORK (BPEN)
作用:身体部位提取,解决不对齐问题。
convolutional pose machines (CPM):确定关键点。【30】
如上图所示,关键点确定之后,在CPM上一个阶段会生成16个信念图(belief map),在获得信念图之后,通过在信念图中搜索最大得分值的位置来定位关键点。 关键点的位置坐标:
确定了16个关键点位置之后,根据区域去划分身体三个部分,
最后,利用一种有效的算法来计算身体部位的特定位置。
(右下变大)
--------------------------------------------------------------------------------------------------------------------------------------------------------------
B 、MULTI-STREAM FEATURE EXTRACTION NETWORK
多流特征提取网络具有三个分支,分别为,全局特征,部分特征,mask 特征。
首先,利用整个图片得到全局特征,利用CNN(四个卷积层,一个inception 模块)生成全局特征,然后经过另一个CNN(两个inception 模块)生成256维度特征。
其次,对于部分特征的学习,整个图片经过BPEN得到三个局部,然后, The ROI pooling module can pool local feature maps from the global feature maps。减小了计算度和复杂度。同样得到256维度经过接下来的CNN。
最后,mask 特征,整个图片经过FCNs(语义分割的一种方法),背景像素用0代替。得到去背景图片,送入CNN,得到了2256维度的mask 特征。
FCN 解读
FCN参考链接(有程序): https://zhuanlan.zhihu.com/p/22976342.
FCN参考链接: https://blog.csdn.net/taigw/article/details/51401448.
最后,输入图像可以通过该流程生成五个256维特征。 可以总结如下:
--------------------------------------------------------------------------------------------------------------------------------------------------------------
C. MULTI-STREAM FEATURE DISTANCE FUSION NETWORK
多流特征距离融合网络。包含了contribution feedback module 和distance fusion module 两个模块,第一个是核心。
对于两个图片,他们的五对特征进行融合,得到的特征距离计算公式如下
每对特征距离乘以对应的贡献系数,相加求和得到两张图片的特征距离。特征距离越小,说明两个图片越相似。
--------------------------------------------------------------------------------------------------------------------------------------------------------------
D. CONTRIBUTION FEEDBACK MODULE(core)
贡献反馈模块是MSCF的核心,它可以根据全局和局部特征图自适应地生成贡献系数。
贡献系数区间
通常,贡献系数的范围是0-1。 但是,许多值都不适合Re-ID。 当The re-ID系统显示出良好的性能时,贡献系数可能会集中在较小的间隔中。 在这种情况下,采用全间隔0-1会降低精度。 因此,采用区间优化算法来优化贡献系数的范围。
(意思是大间隔范围会降低精度,尽量去优化系数在一个更小的范围区间内)
下面就是区间优化算法
将整个区间[0,1]分为十个子区间,并在每个子区间内计算每种类型的贡献系数的分配概率。 删除了一些与阈值相比具有较低概率的子间隔。 然后将剩余的子间隔合并以构成最终间隔。
(每一个类型,总共四个类型(因为全局系数为1),分别计算每个子区间的分配概率,合并
现在已经得到了系数分配区间,但是还需要得到区间内对应最优的值。)
--------------------------------------------------------------------------------------------------------------------------------------------------------------
接下来如何求最优的系数值
前边说过的 map_G 经过ROI pooling 得到三个局部特征映射,根据特征映射来生成贡献系数。然后提出来新的名词—激活率
ROI pooling 参考资料链接: https://blog.csdn.net/lanran2/article/details/60143861
参考链接: https://zhuanlan.zhihu.com/p/73654026.
全局特征映射图有很多特征点,大于或者等于0,我们将局部特征图上非零值的数量与全局特征图上非零值点的数量之比定义为激活率。 可以总结如下:
同样道理,mask feature的激活率可以利用相同原理求解,各部分激活率如图所示。
找到了激活率,还需要找到激活率与贡献系数的关系,不然还是得不到贡献系数。观察发现,激活率和贡献系数有点相似,有些点也是没有用到,所以就可以优化来提高表现。
激活率区间
与贡献系数间隔优化算法不同,优化激活比率间隔的策略更简单。 我们仍然根据算法1将训练数据分为两部分,并进行随机重复实验。 对于每种类型的激活比率,可以获得具有M×S的集合。S是probe子集的大小。 同样,计算激活率在不同子间隔内的分布概率,并将其与设置的阈值进行比较。 最后,合并剩余的子间隔会生成最佳间隔。(得到最优激活率区间)
重点来了
在限制激活比率和贡献系数的间隔之后,必须构建反射桥。 我们提出了如下所示的有效反射函数
(疑问?? x并不固定,怎么求固定的贡献参数的呢??)
四、k-DISTRIBUTION RE-RANKING
最近好多文献,Re-ranking的使用可以大大提高排序的精度。算是一个专门课题。重新排序的性能取决于初始列表的检索质量
In recent years, re-ranking technique has drawn more and more attention in re-ID.
- Chumet al.[32] develop the averagequery expansion (AQE) method. A new query vector can be generated by averaging the vectors to re-query the gallery set.可以通过对向量进行平均以重新查询图库集来生成新的查询向量。
- Arandjelovic and Zisserman [33] propose a discriminative query expansion (DQE) method to obtain a weight vector and modify the ranking list based on the decision boundary.提出了一种判别查询扩展(DQE)方法来获取权重向量并基于决策边界修改排名列表
- Bai and Bai [34] propose sparse contextual activation (SCA)to encode the set of neighborhood into sparse vector. They use Jaccard distance to measure similarity. 使用稀疏上下文激活(SCA)将邻域集编码为稀疏向量。 他们使用Jaccard距离来衡量相似度
- Garciaet al.[8]propose a new re-ranking model. It considers the contextual information and content from the initial ranking list, improves the performance with efficacious elimination of ambiguous samples.它从初始排名列表中考虑上下文信息和内容,通过有效消除歧义样本来提高性能
作者提出来的是K-分布从新排序,可以提高re-id的表现能力,并且依赖于最初的排序列表。通过计算得到额外的距离从而得到K-分布得分。分布得分包含了三个分数:distribution-location,distribution-dispersion, and distribution-overlap score(位置、分散、重叠分数),所提出的方法是无监督和自动的。
ranking
初始排序
然后根据初始的排序,对probe 集进行扩展。
流程如下图所示,排序按照距离升序排列
distribution-location score
distribution-dispersion score
distribution-overlap score
final score