CVPR 2018 行人重识别：Exploit the Unknown Gradually: One-Shot Video-Based Person Re-Identification by S L

最新推荐文章于 2024-03-17 22:12:55 发布

维他柠檬茶好喝吗

最新推荐文章于 2024-03-17 22:12:55 发布

阅读量2.1k

点赞数 2

分类专栏：行人重识别

本文链接：https://blog.csdn.net/Coder_XiaoHui/article/details/81130246

版权

2 篇文章 0 订阅

订阅专栏

Person Re-id 的目的是在多个摄像头的的情况下识别出各个人，近些年来person re-ID 在全部标注好的数据集上十分引人关注，但是现实中将所有的数据全部标注是一件不现实的事，因此半监督学习也引起了特别的关注，作者的这篇工作主要关注的单样本学习，就是每个identity只有一个标记好的tracklet。
单样本Re-id的一个挑战就是如何评估大量的丰富的没有标记的样本，一种经典的方法就是对这些没有标记的样本生成一个假的标签，然后将其用作训练。不断扩增训练集，作者也采用的这种方法。
作者发展用一个相对慢的速度扩增数据集会让模型达到一个比较好的效果。

用 $L=\{(x_1,y_1),...,(x_{nl},y_{nl})\}$ 代表标记的数据集，用 $U=\{(x_{nl+1}),...,(x_{nl+n_u})\}$ 代表没有标记的数据集，作者首先在有标记的数据集上训练了一个分类模型，目标函数为：

$m i n θ, w \sum i = 1 n l l (f (w : ϕ (θ; x i)), y i)$ $min_{\theta,w} \sum_{i=1}^{nl} l(f(w:\phi(\theta;x_i)),y_i)$

其中， $\phi$ 代表CNN模型，f代表分类器模型。
模型框架如下：

首先，用一个训练好的CNN来抽取一段视频中每一帧的特征，然后做一个 temporal average pooling 的操作，得到一个特征向量，然后打标签的视频和没打标签的视频都可以映射到同一向量空间，每次找距离打标签的视频向量最近的向量(二范数)作为扩充。
作者也提过另一种判别是否可以扩充的方法, 就是用训练好的CNN分类器预测没打标签的视频,然后用结果作为判别依据扩充数据集,作者表示之前很多工作都是这样做的,他们这种是新提出来的方法.
作者设p为数据集膨胀的因子, $p\epsilon(0,1)$

用了两个数据集,MARS数据集和DukeMTMC-VideoReID数据集.对于每个数据集,为每个identity随机选择摄像头1的一个tracklet 作为初始化,如果摄像头1没有identity的图像,则用下一个摄像头的视频,保证每个identity都有一个video tracklet作为训练样本.
实验结果:

这里写图片描述