1 标题
Person Re-Identification by Deep Joint Learning of Multi-Loss Classification 来源:IJCAI 2017 日期:7月6日
2 概述
发文当时(2017年),用特征提取做REID的学者很多,但这些工作往往仅通过全局(global)特征或局部(local)特征实现。全局特征和局部特征之间存在一定的互补性,合理结合两种特征,能达到一加一大于二的效果,且在捕获信息时,同时观察全局信息和局部信息更贴近人类视觉系统。
为此,作者建立了结合全局特征与局部特征的模型,以最大限度地发挥两者的互补优势,且仅用常规度量方式如L2距离来实现REID。
3 主要贡献
- 提出了结合全局特征和局部特征的观点。
- 提出了多损失联合学习(Joint Learning Multi-Loss,JLML) CNN模型,它也是一个双分支网络。它能够通过优化多分类损失(multiple classification losses)学习更具辨别性的全局特征和局部特征,此外,它能利用global和local特征的互补优势来应对图片中局部未对齐(local misalignment)的问题以及优化整体匹配标准(holistic matching criteria)。
- 提出了基于结构稀疏性的特征选择学习机制(structured sparsity based feature selection learning mechanism)来提高多损失联合特征学习的鲁棒性,改善local和global representations之间的noise和data covariance。
4 算法及实验
4.1 网络结构
- JLML模型结构,可以看出它是一个双分支网络,就如同之前提到的换衣数据集文章里的BC-Net一样。它包含了局部分支和全局分支,每个分支单独训练。整张图像经卷积层之后得到的特征传入global分支,将该特征切为m块送入local分支,前述的卷积得到的特征其实是由global分支和local分支共享的。
- JLML的Backbone是ResNet-50,经调整后其实是ResNet-39,网络结构如下,可以看出传入local branch的特征实际上被分成了4块。
- 加入structured sparsity特征选择学习机制之后
- 全局分支的正则化项: l 2 , 1 = ∣ ∣ W G ∣ ∣ 2 , 1 = ∑ i = 1 d g ∣ ∣ w g i ∣ ∣ 2 l_{2,1}=||W_G||_{2,1}=\sum_{i=1}^{d_g}||w_g^i||_2 l2,1=∣∣WG∣∣2,1=∑i=1dg∣∣wgi∣∣2, W G W_G WG是 c g × d g c_g\times{d_g} cg×dg大小的矩阵;
- 局部分支的正则化项: l 1 , 2 = ∣ ∣ W L ∣ ∣ 1 , 2 = ∑ i = 1 c l ∑ j = 1 m ∣ ∣ w l , j i ∣ ∣ 1 2 l_{1,2}=||W_L||_{1,2}=\sum_{i=1}^{c_l}\sum_{j=1}^m||w_{l,j}^i||_1^2 l1,2=∣∣WL∣∣1,2=∑i=1cl∑j=1m∣∣wl,ji∣∣12, W L W_L WL是 m × d l m\times{d_l} m×dl大小的矩阵, m m m就是前面提到的分块数;
- 分类损失用交叉熵损失 l l l,这样一来,最终损失函数: l g l o b a l = l + λ g l o b a l ∣ ∣ W G ∣ ∣ 2 , 1 , l l o c a l = l + λ l o c a l ∣ ∣ W L ∣ ∣ 1 , 2 l_{global}=l+\lambda_{global}||W_G||_{2,1}\,,\,l_{local}=l+\lambda_{local}||W_L||_{1,2} lglobal=l+λglobal∣∣WG∣∣2,1,llocal=l+λlocal∣∣WL∣∣1,2
4.2 实验
- 实验一共用到了四个数据集
VIPeR, GRID, CUHK03, Market-1501
,其中前两个是我未用过的,实验用到了caffe
框架,下面的实验结果中,红色/蓝色条目分别代表第一、第二好。 - 不同数据集上模型性能对比
- CUHK03数据集上性能对比
- Market-1501上模型性能对比
- VIPeR上模型性能对比,两个最好的方法是人工方法,与其他深度方法相比,JLML仍具优势
- GRID上模型性能对比,和上一条一样,hand-craft方法占优势
- CUHK03数据集上性能对比
- 不同的参数、方法设置模型性能对比,基于Market-1501数据集
- 单独使用全局特征或局部特征
- 使用Multi Loss效果更好,与某篇论文里的UniLoss对比
- 是否共享低级特征(通过浅层卷积层得到的特征)
- 是否用structured sparsity based feature selection learning(SFL)
- 单独使用全局特征或局部特征
- 模型复杂度对比
5 收获与心得
本文提出的网络模型也是双分支网络,和上一篇换衣数据集那个BC-Net类似,本文结合了全局特征与局部特征,BC-Net结合了生物特征与服饰特征,均把比较重要的特征结合。
整体来看,这些模型在网络结构上并没有什么质的创新,更多的是思想、方法的新颖,就比如本文的JLML,核心只是对ResNet-50进行了修改,不过ResNet本身就是一个很简洁的网络。总结来说,ResNet,DenseNet这种Backbone的创新发明不容易,但是基于Backbone衍生一些有趣的模型相对简单,但衍生容易,保证模型性能难。包括上上周的加法器网络,用L1 norm代替卷积,简单巧妙,想到这些需要对深度学习和神经网络有一定的了解和直观认识,要学的还有很多!