Re-ID

ca1m4n

已于 2022-09-25 19:22:40 修改

阅读量1.6k

点赞数 2

分类专栏：计算机视觉基础

于 2022-09-17 21:04:46 首次发布

本文链接：https://blog.csdn.net/bocaiaichila/article/details/126910563

版权

计算机视觉基础专栏收录该内容

8 篇文章 2 订阅

订阅专栏

写在前面的话

[1]Ye Mang,Shen Jianbing,Lin Gaojie,Xiang Tao,Shao Ling,Hoi Steven C H. Deep Learning for Person Re-identification: A Survey and Outlook.[J]. IEEE transactions on pattern analysis and machine intelligence,2021,PP.
[2]徐梦洋. 基于深度学习的行人再识别研究综述[C]//.中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集.[出版者不详],2018:125-128.
[3]叶钰,王正,梁超,韩镇,陈军,胡瑞敏.多源数据行人重识别研究综述[J].自动化学报,2020,46(09):1869-1884.DOI:10.16383/j.aas.c190278.
[4]陈璠. 融合局部特征的深度学习行人重识别方法研究[D].江南大学,2021.DOI:10.27169/d.cnki.gwqgu.2021.001964.

很久没读英语了，如果笔记有语法错误别计较😶.
mark一下，道阻且长😃

Person re-identification

行人重识别任务主要由图像特征提取和特征相似性度量两部分组成。传统方法主要通过人工设计局部特征对图像中的行人进行特征提取，再将其融合构成全局特征.

Background

ReID应用广泛，尤其在安防方面有很大应用价值，如果能够很大程度进行自动化处理视频图像信息的话.
但是，用颜色直方图效果很差，也包括一些利用其他底层视觉特征信息.

Current Challenges：

Limited Training Data数据
Effectiveness性能
Efficiency效率
Domain Gap 实用，考虑realWord

实际场景中往往由于摄像头角度、穿着、光照以及天气的不同，导致模型的准度下降，考验模型的泛化能力，简单来说就是一般不能直接将训练好的模型直接应用到新场景、新dataset上，准确率低。
类内差异大于类间差异

Uncontrained Environment(e.g.,Occlusion)实用

使用行人关键点检测，区分行人图片的遮挡部分和非遮挡部分，然后提取非遮挡部分的表征进行相似性匹配，忽略遮挡部分表征。But必须保证图像对齐性的高精准，否则将有可能出现身体部分错位的现象，增加模型的误判。

Potential Solutions：

Synthetic Pedestrain Images
Parts/Losses
Auto-ML/Pruning
Domain Adaptation
Alignment/3D Model

以上为郑哲东博士在极市的b站直播分享的.

Deep learning-based methods

identification deep model
regard the person ReID task as a classification issue
输出图像属性
architecture:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nrnqDH0B-1663418711543)(vx_images/401670017220958.png =500x)]

verification deep model
输入一对images，输出相似值来判断是否是同一个人
结合identification model和verification model效果不错.

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-84SlMAWB-1663418711544)(vx_images/146715417227251.png =500x)]

distance metric-based deep model
基于距离度量的深度模型的目的是使同一人物图像之间的距离尽可能小，而使不同人物图像之间的距离尽可能大。
就是挖掘不同人物图像之间的相关性，并在训练阶段学习相似度度量
metric approach最常用三元组模型（triplet model），据此改进的有很多现在

在这里插入图片描述

part-based deep modelD
注意力机制 as a part-feature learning module is adopted to enhance the discriminative ability of the learned deep feature.
The limitations ：
a.增加模型的复杂性，从而降低训练效率.
b.Ignore the pixel-level saliency忽略像素级的显著性
c. 对空间语境信息的考虑较少.
video-based deep model
深度学习技术也被应用到基于视频的人脸识别中.
数据增强深度模型
因为数据集量的限制很容易导致过拟合，使用基于GAN的数据增强方法可以增强RelD模型的泛化能力.
但是质量不佳，带来噪声.
其他角度
camera network based methods
open-set person ReID
semi-supervised learning-based person ReID
low-resolution person ReID
由于最常用的传感器- RGB传感器，对照明，遮挡和杂波环境很敏感，开发了基于深度的和跨模态的模型：e.g. 骨骼追踪skeletal tracking、红外infrared、4D spatio-temporal signatures

Inception和ResNet-50下常用的loss function的精度

在这里插入图片描述

不难发现，ID Loss (i.e., Softmax and OIM) and distance metric-based losses(i.e.,Triplet and MSML) have complementary advantages to some extent.
对于卷积神经网络架构，融合使用这两种loss function是很好的选择.

Datasets

2007年，Gary等人发布第一个数据集VIPeR.

RGB image-based datasets

ViPER⭐️
背景、灯光条件、视角差别很大的
GRID
照明变化和低分辨率的
CUHK01
两个camera，一个正面或背面，另一个侧面的
CUHK03
the largest.
Market-1501
采集于清华大学校园中的６个不同视角的摄像头
the Deformable Part Model (DPM) detector captures the boxes of pedestrians自动检测并切割.
DukeMTMC-reID
来自8个高分辨率监控设备的1812个身份的36411个行人图像组成，其中1404个被两个以上的摄像头拍摄到，其余的被视为干扰识别
Airport
Partial-reID⭐️
60个行人的600张图像，每个行人有5张局部图像和5张全身图像

Video sequence datasets

在这里插入图片描述

3DPeS suffers from illumination and viewpoint variations. 光照和视角
ETHZ involves significant illumination variations and occlusions .光照和遮挡
PRID-2011 干净简单环境.
iLIDS-VID 视角、光照、服装相似、背景遮挡
MARS，the largest

Multi-modal datasets

RGBD-ID is created in different days and the visual aspects of the pedestrians may change.
在这里插入图片描述

SYSU RGB-IR⭐️
由4台RGB摄像机和2台红外摄像机捕获的，红外和RGB模式之间存在巨大差异.

SOTA

在这里插入图片描述

可以看到，深度学习稳定发挥，但是在几个datasets的表现上（i.e.,ViPER,Partial-ReID,SYSU RGB-IR）仍然有较大提高空间.
未来应该创建更接近真实场景的新数据集，来解决训练的模型在实际场景中鲁棒性较差的问题.

Evaluation Metrics

累计匹配曲线CMC：曲线表示一个查询目标出现在不同大小的候选表中的概率值，但始终只计算第一个被匹配的标注数据.
Accordingly，存在多个标注时，采用mAP作为衡量标准.
FLOPs网络参数大小和每秒浮点数运算次数也作为评价指标.

Future research directions

基于未来部分的深度模型建议在局部特征中引入空间上下文和时间信息等关系信息。
忽略复杂背景，引入人体掩码学习分支.
如何基于GAN生成高质量样本的数据集呢？可以设计GAN模型扩增视频序列的dataset，增强泛化能力.
person’s bbox大都假设框定好了但现实不是，融合检测和重识别 jointly
datasets：Long term，Larger scale ，multi-modality data .
定义并优化位置的损失函数，并将其整合到最终的识别分数中，以减少检测的误差.

Multi-source多源数据行人重识别

1）不同的相机规格和设置，e.g.,high-resolution and low-resolution.
2）不同拍摄设备,非可见光设备,e.g.,Infrared and Depth image.
3）文本信息.
4）由专家或者数字传感器自动获得的图像,素描与数字照片.

在这里插入图片描述

low-resulution，如何提高识别输入图像有效特征的准确性并尽可能少地引入与行人重识别无关或不利的视觉结果是提高低分辨率行人重识别的关键.

Infrared ReID，研究主要使用特征空间投影转换等方法解决跨模态特征匹配的问题, 但由于红外数据跨模态识别的独特之处在于照明类型的变化, 与完全依赖机器学习或基于不变特征提取的方法相比, 基于物理知识的跨模态光度标准化建模或许更有效.

深度图像，视角和距离都很大影响到深度信息的判别力.

文本，标记不完整但是准确性高.

三类多源数据行人重识别方法描述

多源数据re-ID需要解决以下问题：

real datasets are few and small.
针对特定的数据类型设计并选择合适的过滤无效信息的网络.
统一模态
集成

弱监督学习方法

无监督学习

在这里插入图片描述

半监督学习

针对每个行人存在较少标注：
EUG逐步一次性学习方法，从未标记的视频跟踪片段中逐步选择少量候选样本来扩充已标注的跟踪片段数据集.

针对只有少量行人存在标注：
迭代方法，通过多视角聚类方法对无标注数据进行聚类生成伪标签，然后用有标注数据和伪标签数据进行训练.

基于视频的行人重识别

backgroud:
1、设备、遮挡、视角、分辨率差异
2、视频帧间的时序信息没被充分利用

早期研究人员对传统特征提取算法进行改进，提出了HOG3D[1]和3DSIFT[2]
[1]三维梯度方向直方图，通过计算时空兴趣点周围局部区域内所有像素点对应的二维图像及时间域的平均直方图对时空兴趣点进行三维梯度特征描述.
[2]3D尺度不变特征变换,算法实质上是在不同尺度空间上查找特征点（关键点）的问题.