A Bottom-up Clustering Approach to Unsupervised Person Re-identification (AAAI2019)

一、介绍

这篇文章解决的是无任何标签的无监督行人再识别问题,作者提出了一种自底向上聚类方法(bottom-up clustering BUC)来联合优化CNN和无标签样本间的关系。作者的方法考虑到了行人再识别任务的两个基本的事实:不同人间的diversity和同一个人间的similarity。作者的算法最开始把每个人作为单独的一类,来最大化每类的diversity,然后逐渐的把相似的类合并为同一类,来提升每类的similarity。作者在自底向上的聚类过程中利用了一个多样性正则项来平和每个cluster的数据量,最终,作者的模型在diversity和similarity之间达到了很好的平衡。作者在图片和视频行人再识别数据集上进行了实验,包括Market-1501,DukeMTMC-reID, MARS and DukeMTMC-VideoReID,实验结果证明作者的算法不仅仅超过了无监督行人重识别的sota,而且跟迁移学习和半监督学习的方法相比也有很好的结果。

二、作者的方法

2.1 网络更新

CNN提取特征后,和查找表计算cosine距离: 

 

 这里V是一个Cxn的查找表,存储每个cluster的特征。Vj是V的第j列,C是当前阶段clusters的数量,第一阶段时C=N。在接下来的阶段,算法逐渐合并相似的图片到一类,C也逐渐减小。t是温度系数,控制类间概率分布的softness,在实验中t=0.1。通过(2)式,分别计算当前样本特征x(已经经过L2归一化)和查找表每类特征间的cosine距离,然后除以和所有类特征间距离之和(类似softmax)作为x属于这类的概率(理想情况下和本类cosine距离为1,和其他类距离为0,(2)式的概率为1)。然后,对x所属的类y^i使用下式计算loss:

后向时,使用下式更新查找表V:

 

作者指出,在优化过程中,Vj包含了第j类的所有信息,因此可以看作是一种类的中心点。作者不直接通过所有特征计算类中心点是为了降低计算复杂度。查找表V能够减轻大量的计算。作者提出来的损失函数能够使本类cosine距离为1,和其他类距离为0,能够在整个训练集上综合考虑同类的similarity和不同类的diversity。

2.2 合并类

经过训练阶段,特征空间里训练样本倾向于互相远离(diversity),然而同类的图片是相似的,在特征空间也相近。作者采用层次聚类的方法来自底向上合并类。最开始每张图是一类,然后每次迭代根据类间距离,总小到大合并固定数量(m=mp*N,mp是个系数,实验中设为0.05,即20次迭代合并完所有的类)的类,每次迭代剩余类数:C=N-t*m。类间距离计算公式如下:

 

即将两个类里距离最近的样本的L2距离作为两个类的距离。作者指出,还可以采用 1)两个类里距离最远的样本的L2距离 2)两个类中心点的距离(类中心点通过对该类所有特征求均值得到)。作者指出因为类内variance很大,所以1)的效果不好。2)会丢失重要的判别性信息,所以2)效果也不好。后面作者设计实验证明了选择两个类里距离最近的样本的L2距离的方式最好。

2.3 动态网络更新

模型迭代地训练网络、合并类。整体的更新进程如下图:

第一次迭代C=N,然后使用X,Y和训练CNN。训练完成后根据类间距离合并m个类,然后重新用样本所属的新类作为新标签Y,再次训练CNN。然后迭代这个过程。每次迭代后,在测试集上测试网络的表现,当网络表现下降时停止迭代。(作者没有明确说明,我推测查找表N是随机初始化得来的,即初始化Cxn大小,行norm为1,的矩阵)

2.4 多样性正则项

虽然作者不知道没类有多少样本,但是作者假设每类的样本数基本相同。为了避免一个类太大,促进小的类合并,作者提出了一个多样性正则项:

 

即把类的样本数目考虑进去。现在的类的距离计算公式为:

lambda是个平衡系数。作者指出,考虑到很多人穿几乎同样(颜色)的衣服,如果没有多样性正则,网络会错误的将这种合并到一起,形成很大的类。

三、实施细节

  1. 使用预训练的ResNet50作为backbone,移除了最后一层分类层。
  2. 第一阶段训练epochs=20。
  3. batch_size=16,dropout=0.5, mp=0.05, lambda=0.005
  4. SGD优化,momentum=0.9,lr前15epochs为0.1,后5个epochs为0.01
  5. 对于视频,把每帧的特征进行mean pool作为样本的特征。图片每张作为一个样本。
  6. 使用一块1080Ti,Market-1501和DukeMTMC-reID用4小时完成训练,Mars和DukeMTMC-VideoReID用5小时完成训练

四、实验结果 

1)在图片数据集上和sota的对比

 

在Market1501上,相比于完全无监督设定的sota方法 OIM,rank-1和mAP分别提升22.9和16.2.相比于迁移学习的sota方法TJ-AIDL,虽然它利用了额外的信息,作者的方法仍然在rank-1和mAP上分别提升22.9和16.2.

2)在视频数据集上和sota的对比 

 

在MARS上,rank-1 = 61.1%, mAP=38.0%.分别超过OIM 27.4 points in rank-1 accuracy and 24.5 points for mAP. 在DukeMTMC-VideoReID,上,相比OIM也提升了18.1 points and 18.1 points improvement on rank-1 accuracy and mAP, 作者还和单标注设定的方法进行了对比(Liu, Wang, and Lu 2017; Ye et al. 2017;Ye, Lan, and Yuen 2018) 他们的方法依赖了单标注的很多信息,如总共有多少人,他们张什么样。没有任何标注数据,作者的方法仍然超过了他们大多数方法,证明了作者的方法能够很好的利用无标签数据。

3)多样性正则项的作用

通过表1和表2可以看出,多样性正则项能够提升5个点以上。

4)两个类不同距离计算方式的对比 

通过上表可以看出,选择两个类样本最近的距离作为两个类的距离的效果最好。 

5)参数lambda和迭代次数对performance的影响 

 

 

6)和无监督特征学习算法的对比 

 

为例和其他无监督学习算法进行对比,作者在CIFAR10上进行了分类任务的实现。作者采用和Wu et al. 2018b相同的设定,即用ResNet18,提取最后一个pooling层的特征,使用最近邻分类(最近邻分类被用来评估特征提取的质量,比较有效)。实验结果如表4,比Wu et al. 2018b提升了4.4个点,证明了作者聚类、网络更新策略的有效性。 

参考文献

Wu, Z.; Xiong, Y.; Stella, X. Y.; and Lin, D. 2018b. Unsupervised feature learning via non-parametric instance discrimination.In CVPR.

 

 

 

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值