A Bottom-up Clustering Approach to Unsupervised Person Re-identification （AAAI2019）

最新推荐文章于 2021-07-03 16:24:21 发布

han_jan

最新推荐文章于 2021-07-03 16:24:21 发布

阅读量4k

点赞数 3

分类专栏： Re-ID

本文链接：https://blog.csdn.net/baidu_39622935/article/details/88816308

版权

Re-ID 专栏收录该内容

24 篇文章 1 订阅

订阅专栏

一、介绍

这篇文章解决的是无任何标签的无监督行人再识别问题，作者提出了一种自底向上聚类方法（bottom-up clustering BUC）来联合优化CNN和无标签样本间的关系。作者的方法考虑到了行人再识别任务的两个基本的事实：不同人间的diversity和同一个人间的similarity。作者的算法最开始把每个人作为单独的一类，来最大化每类的diversity，然后逐渐的把相似的类合并为同一类，来提升每类的similarity。作者在自底向上的聚类过程中利用了一个多样性正则项来平和每个cluster的数据量，最终，作者的模型在diversity和similarity之间达到了很好的平衡。作者在图片和视频行人再识别数据集上进行了实验，包括Market-1501,DukeMTMC-reID, MARS and DukeMTMC-VideoReID，实验结果证明作者的算法不仅仅超过了无监督行人重识别的sota，而且跟迁移学习和半监督学习的方法相比也有很好的结果。

二、作者的方法

2.1 网络更新

CNN提取特征后，和查找表计算cosine距离：

这里V是一个Cxn的查找表，存储每个cluster的特征。Vj是V的第j列，C是当前阶段clusters的数量，第一阶段时C=N。在接下来的阶段，算法逐渐合并相似的图片到一类，C也逐渐减小。t是温度系数，控制类间概率分布的softness，在实验中t=0.1。通过（2）式，分别计算当前样本特征x（已经经过L2归一化）和查找表每类特征间的cosine距离，然后除以和所有类特征间距离之和（类似softmax）作为x属于这类的概率（理想情况下和本类cosine距离为1，和其他类距离为0,（2）式的概率为1）。然后，对x所属的类y^i使用下式计算loss：

后向时，使用下式更新查找表V：

作者指出，在优化过程中，Vj包含了第j类的所有信息，因此可以看作是一种类的中心点。作者不直接通过所有特征计算类中心点是为了降低计算复杂度。查找表V能够减轻大量的计算。作者提出来的损失函数能够使本类cosine距离为1，和其他类距离为0，能够在整个训练集上综合考虑同类的similarity和不同类的diversity。

2.2 合并类

经过训练阶段，特征空间里训练样本倾向于互相远离（diversity），然而同类的图片是相似的，在特征空间也相近。作者采用层次聚类的方法来自底向上合并类。最开始每张图是一类，然后每次迭代根据类间距离，总小到大合并固定数量（m=mp*N，mp是个系数，实验中设为0.05，即20次迭代合并完所有的类）的类，每次迭代剩余类数：C=N-t*m。类间距离计算公式如下：

即将两个类里距离最近的样本的L2距离作为两个类的距离。作者指出，还可以采用 1）两个类里距离最远的样本的L2距离 2）两个类中心点的距离（类中心点通过对该类所有特征求均值得到）。作者指出因为类内variance很大，所以1）的效果不好。2）会丢失重要的判别性信息，所以2）效果也不好。后面作者设计实验证明了选择两个类里距离最近的样本的L2距离的方式最好。

2.3 动态网络更新

模型迭代地训练网络、合并类。整体的更新进程如下图：

第一次迭代C=N,然后使用X,Y和训练CNN。训练完成后根据类间距离合并m个类，然后重新用样本所属的新类作为新标签Y,再次训练CNN。然后迭代这个过程。每次迭代后，在测试集上测试网络的表现，当网络表现下降时停止迭代。（作者没有明确说明，我推测查找表N是随机初始化得来的，即初始化Cxn大小，行norm为1,的矩阵）

2.4 多样性正则项

虽然作者不知道没类有多少样本，但是作者假设每类的样本数基本相同。为了避免一个类太大，促进小的类合并，作者提出了一个多样性正则项：

即把类的样本数目考虑进去。现在的类的距离计算公式为：

lambda是个平衡系数。作者指出，考虑到很多人穿几乎同样（颜色）的衣服，如果没有多样性正则，网络会错误的将这种合并到一起，形成很大的类。

三、实施细节

使用预训练的ResNet50作为backbone，移除了最后一层分类层。
第一阶段训练epochs=20。
batch_size=16，dropout=0.5, mp=0.05, lambda=0.005
SGD优化，momentum=0.9，lr前15epochs为0.1，后5个epochs为0.01
对于视频，把每帧的特征进行mean pool作为样本的特征。图片每张作为一个样本。
使用一块1080Ti，Market-1501和DukeMTMC-reID用4小时完成训练，Mars和DukeMTMC-VideoReID用5小时完成训练

四、实验结果

1）在图片数据集上和sota的对比

在Market1501上，相比于完全无监督设定的sota方法 OIM，rank-1和mAP分别提升22.9和16.2.相比于迁移学习的sota方法TJ-AIDL，虽然它利用了额外的信息，作者的方法仍然在rank-1和mAP上分别提升22.9和16.2.

2）在视频数据集上和sota的对比

在MARS上，rank-1 = 61.1%, mAP=38.0%.分别超过OIM 27.4 points in rank-1 accuracy and 24.5 points for mAP. 在DukeMTMC-VideoReID,上，相比OIM也提升了18.1 points and 18.1 points improvement on rank-1 accuracy and mAP, 作者还和单标注设定的方法进行了对比(Liu, Wang, and Lu 2017; Ye et al. 2017;Ye, Lan, and Yuen 2018) 他们的方法依赖了单标注的很多信息，如总共有多少人，他们张什么样。没有任何标注数据，作者的方法仍然超过了他们大多数方法，证明了作者的方法能够很好的利用无标签数据。

3）多样性正则项的作用

通过表1和表2可以看出，多样性正则项能够提升5个点以上。

4）两个类不同距离计算方式的对比

通过上表可以看出，选择两个类样本最近的距离作为两个类的距离的效果最好。

5）参数lambda和迭代次数对performance的影响

6）和无监督特征学习算法的对比

为例和其他无监督学习算法进行对比，作者在CIFAR10上进行了分类任务的实现。作者采用和Wu et al. 2018b相同的设定，即用ResNet18，提取最后一个pooling层的特征，使用最近邻分类（最近邻分类被用来评估特征提取的质量，比较有效）。实验结果如表4，比Wu et al. 2018b提升了4.4个点，证明了作者聚类、网络更新策略的有效性。

参考文献

Wu, Z.; Xiong, Y.; Stella, X. Y.; and Lin, D. 2018b. Unsupervised feature learning via non-parametric instance discrimination.In CVPR.

han_jan

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
A Bottom-up Clustering Approach to Unsupervised Person Re-identification （AAAI2019）

一、介绍这篇文章解决的是无任何标签的无监督行人再识别问题，作者提出了一种自底向上聚类方法（bottom-up clustering BUC）来联合优化CNN和无标签样本间的关系。作者的方法考虑到了行人再识别任务的两个基本的事实：不同人间的diversity和同一个人间的similarity。作者的算法最开始把每个人作为单独的一类，来最大化每类的diversity，然后逐渐的把相似的类合并为同一...
复制链接

扫一扫