Person Re-identification by Probabilistic Relative Distance Comparison 论文笔记

Person Re-identification by Probabilistic Relative Distance Comparison 论文笔记

论文链接:Person Re-identification by Probabilistic Relative Distance Comparison

Re-ID(行人再识别技术)是什么?

由于缺乏时空限制,以及视角、光线、背景杂波和遮挡的变化导致视觉外观的巨大变化,在不重叠的相机视图中匹配人。

Re-ID实现的两个方面

  1. 提取外观变化中既独特又稳定的视觉特征
    选择一个合适的特征表示方法,使其能够提取更加具有鲁棒性的鉴别特征对行人进行表示
  2. 设定学习方法使匹配精度最大化
    学习一个良好的距离度量学习方法,学习出一个投影矩阵W能够表示距离,将同一行人的不同图像比作同类样本,不同行人的图像比作不同类样本。距离就是匹配度,即两个图像是一个人的可能性,距离越小表示是同一个人的匹配度越高,距离越大表示匹配度越小。也就是使得在投影空间中同类样本之间的距离较小,不同类样本之间的距离较大。

前提

大多数现有的研究更倾向于寻找一种更独特和稳定特性表示人们的外表,范围广泛的颜色直方图,再选择简单的标准的距离度量(比如L1范数、L2范数)

为此需要学习一种最优的距离度量,使得无论选择何种表达方式,都能使匹配精度最大化。

因此提出了一种新的算法:概率相对距离比较模型(PRDC)

旨在目标函数最大化一对真实匹配(即同一个的两张真实图像)与一对相关的错误匹配(即两个人的两张真实图像)的之间的距离的概率。

PRDC与其他方法比较

PRDC与传统方法

传统的远程学习方法是将类内差异减小,类间差异增大,即同一个人A的所有照片之间的距离缩短,将另一个人B与A的照片之间的距离增大。
传统的远程学习方法的缺陷是:

  1. 由于不同的条件导致类内的差异很大;
  2. 类间的差异在不同类之间也存在较大的差异;
  3. 用于构建代表性的类分布欠采样。(强行最小化类内距离最大化类间距离将会过拟合;若学习距离则降低复杂性,缓解过拟合问题。)

PRDC与RankSVM的比较:

  1. 基于RankSVM的可选全局选择方法是一阶特征选择方法(不能利用不同特征之间的相关性);
    PRDC是二阶特征选择方法。
  2. RankSVM通过将排序误差函数与大容差函数融合在目标函数中来缓解过拟合问题;
    目标函数概率公式使PRDC更能容忍类内与类间的大变化和数据稀疏性。
  3. 调整RankSVM的关键自由参数来确定margin函数和ranking error函数之间的权值,计算开销大;
    PRDC无这方面的问题。

模型介绍:

1. 寻找合适的特征表示方法

特征表示示意图如下:
这里的特征表示方法是先将一个人的图像分成6个横条纹,每个条纹构造29个特征通道,通过滤波器提出相应的颜色特征和两种纹理特征。每个特征通道用16维直方图向量表示这些特征。最终每个人的图像有一个特征向量在2784维的特征空间表示。

2. 学习一种合适的度量距离学习方法

提出了Re-ID概率相对距离比较(PRDC):
算法基本定义:
在这里插入图片描述
定义两个集合:训练集中包括一个人的多维特征及其它的类标签。集合O则是表示类内和类间的差异向量,差异向量为: 。然后定义一个距离函数 ,一般用马氏距离表示,我们所要获得的是类内距离小于类间距离的最优学习情况,也就是保证公式(1)的概率最小化:在这里插入图片描述
公式(1)

根据极大似然准则函数得到最优函数f:
在这里插入图片描述
公式(2)

距离函数f参数化为基于Mahanalobis(二次)的距离函数:
在这里插入图片描述
公式(3)

其中M是半定矩阵。因此,远程学习问题变成了学习和思考公式(2)
对M进行特征值分解:在这里插入图片描述
公式(4)

其中A的列向量是M的标准正交特征向量, 的对角是对应的特征值。注意W是正交的。因此,学习一个函数f等价于学习一个正交矩阵W= (w1,···,wa,···,wL)
在这里插入图片描述公式(5)

注:(马氏距离函数的二次形式) ,其中S表示样本协方差矩阵。公式(1)可以看做sigmoid函数的变形。

算法迭代优化——寻找低秩(非平凡解)解,可克服过拟合

定义一个空矩阵W,迭代a次后,加入一个新的估计列Wa 满足停止条件,迭代结束。

step1

经过a次迭代后,共得到a个正交向量w1,w2,···,wa;为了学习下一个正交向量wa+1,令:
在这里插入图片描述
公式(6)
其中w0=0,xip,jxin,j 为第j次迭代的差向量。
在这里插入图片描述
公式(7)

其中,在这里插入图片描述即在在这里插入图片描述方向上的单位向量。

step2:利用公式(7)求出xip,a+1 ,xin,a+1,,令在这里插入图片描述在这里插入图片描述,然后学习在这里插入图片描述的一个新的最优投影:
公式(8)

其中在这里插入图片描述
作为损失函数。
根据梯度下降法学习迭代:
在这里插入图片描述
公式(9)
在这里插入图片描述
其中,为每个梯度更新步骤自动确定的步长,根据公式(9)的下降方向,设置初值:在这里插入图片描述
当满足损失函数低于一定结果时,迭代结束。

25篇机器学习经典论文合集,有需要欢迎积分自取 Efficient sparse coding algorithms论文附有代码 [1] Zheng S, Kwok J T. Follow the moving leader in deep learning[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 4110-4119. [2] Kalai A, Vempala S. Efficient algorithms for online decision problems[J]. Journal of Computer and System Sciences, 2005, 71(3): 291-307. [3] Kingma, D. and Ba, J. Adam: A method for stochastic optimization. In Proceedings of the International Conference for Learning Representations, 2015. [4] Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[C]//Advances in neural information processing systems. 2007: 801-808. [5] Fan J, Ding L, Chen Y, et al. Factor Group-Sparse Regularization for Efficient Low-Rank Matrix Recovery[J]. 2019. [6] Z. Lai, Y. Chen, J. Wu, W. W. Keung, and F. Shen, “Jointly sparse hashing for image retrieval,” IEEE Transactions on Image Processing, vol. 27, no. 12, pp. 6147–6158, 2018. [7] Z. Zhang, Y. Chen, and V. Saligrama, “Efficient training of very deep neural networks for supervised hashing,” in Proc. IEEE Int. Conf. Computer Vision and Pattern Recognition, 2016, pp. 1487–1495. [8] Wei-Shi Zheng, Shaogang Gong, Tao Xiang. Person re-identification by probabilistic relative distance comparison[C]// CVPR 2011. IEEE, 2011. [9] Liao S, Hu Y, Zhu X, et al. Person re-identification by local maximal occurrence representation and metric learning[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 2197-2206. [10] Liu X, Li H, Shao J, et al. Show, tell and discriminate: Image captioning by self-retrieval with partially labeled data[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 338-354. [11] Yao T, Pan Y, Li Y, et al. Exploring visual relationship for image captioning[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 684-699. [12] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang., ”Image Super-Resolution Using Deep Convolutional Networks, ” IEEE Transactions on Pattern Analysis and Machine Intelligence, Preprint, 2015. [13] M. D. Zeiler, D. Krishnan, Taylor, G. W., and R. Fergus, "Deconvolutional networks," in Proc. IEEE Comput. Soc. Conf. Comput. Vision Pattern Recog., 2010, pp. 2528-2535. [14] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587. [15] Girshick R . Fast R-CNN[J]. Computer Science, 2015. [16] Joseph Redmon, Santosh Divvala, Ross Girshick, et al. You Only Look Once: Unified, Real-Time Object Detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016. [17] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324. [18] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. science, 2006, 313(5786): 504-507. [19] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105. [20] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European conference on computer vision. Springer, Cham, 2014: 818-833. [21] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 1-9. [22] Wu, Y., & He, K. (2018). Group normalization. In Proceedings of the European Conference on Computer Vision (ECCV) (pp. 3-19). [23] Goodfellow I,Pouget-Abadie J, Mirza M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. 2014: 2672-2680. [24] Tran, L., Yin, X., & Liu, X. (2017). Disentangled representation learning gan for pose-invariant face recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1415-1424). [25] Pu, Y., Gan, Z., Henao, R., Yuan, X., Li, C., Stevens, A., & Carin, L. (2016). Variational autoencoder for deep learning of images, labels and captions. In Advances in neural information processing systems (pp. 2352-2360).
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值