什么是行人重识别?
写在前面的话
[1]Ye Mang,Shen Jianbing,Lin Gaojie,Xiang Tao,Shao Ling,Hoi Steven C H. Deep Learning for Person Re-identification: A Survey and Outlook.[J]. IEEE transactions on pattern analysis and machine intelligence,2021,PP.
[2]徐梦洋. 基于深度学习的行人再识别研究综述[C]//.中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集.[出版者不详],2018:125-128.
[3]叶钰,王正,梁超,韩镇,陈军,胡瑞敏.多源数据行人重识别研究综述[J].自动化学报,2020,46(09):1869-1884.DOI:10.16383/j.aas.c190278.
[4]陈璠. 融合局部特征的深度学习行人重识别方法研究[D].江南大学,2021.DOI:10.27169/d.cnki.gwqgu.2021.001964.
很久没读英语了,如果笔记有语法错误别计较😶.
mark一下,道阻且长😃
Person re-identification
行人重识别任务主要由图像特征提取和特征相似性度量两部分组成。传统方法主要通过人工设计局部特征对图像中的行人进行特征提取,再将其融合构成全局特征.
Background
ReID应用广泛,尤其在安防方面有很大应用价值,如果能够很大程度进行自动化处理视频图像信息的话.
但是,用颜色直方图效果很差,也包括一些利用其他底层视觉特征信息.
Current Challenges:
-
Limited Training Data数据
-
Effectiveness性能
-
Efficiency效率
-
Domain Gap 实用,考虑realWord
实际场景中往往由于摄像头角度、穿着、光照以及天气的不同,导致模型的准度下降,考验模型的泛化能力,简单来说就是一般不能直接将训练好的模型直接应用到新场景、新dataset上,准确率低。
类内差异大于类间差异
- Uncontrained Environment(e.g.,Occlusion)实用
使用行人关键点检测,区分行人图片的遮挡部分和非遮挡部分,然后提取非遮挡部分的表征进行相似性匹配,忽略遮挡部分表征。But必须保证图像对齐性的高精准,否则将有可能出现身体部分错位的现象,增加模型的误判。
Potential Solutions:
-
Synthetic Pedestrain Images
-
Parts/Losses
-
Auto-ML/Pruning
-
Domain Adaptation
-
Alignment/3D Model
以上为郑哲东博士在极市的b站直播分享的.
Deep learning-based methods
- identification deep model
regard the person ReID task as a classification issue
输出图像属性
architecture:
- verification deep model
输入一对images,输出相似值来判断是否是同一个人
结合identification model和verification model效果不错.
- distance metric-based deep model
基于距离度量的深度模型的目的是使同一人物图像之间的距离尽可能小,而使不同人物图像之间的距离尽可能大。
就是挖掘不同人物图像之间的相关性,并在训练阶段学习相似度度量
metric approach最常用三元组模型(triplet model),据此改进的有很多现在
-
part-based deep modelD
注意力机制 as a part-feature learning module is adopted to enhance the discriminative ability of the learned deep feature.
The limitations :
a.增加模型的复杂性,从而降低训练效率.
b.Ignore the pixel-level saliency忽略像素级的显著性
c. 对空间语境信息的考虑较少. -
video-based deep model
深度学习技术也被应用到基于视频的人脸识别中. -
数据增强深度模型
因为数据集量的限制很容易导致过拟合,使用基于GAN的数据增强方法可以增强RelD模型的泛化能力.
但是质量不佳,带来噪声. -
其他角度
camera network based methods
open-set person ReID
semi-supervised learning-based person ReID
low-resolution person ReID
由于最常用的传感器- RGB传感器,对照明,遮挡和杂波环境很敏感,开发了基于深度的和跨模态的模型:e.g. 骨骼追踪skeletal tracking、红外infrared、4D spatio-temporal signatures
Inception和ResNet-50下常用的loss function的精度
不难发现,ID Loss (i.e., Softmax and OIM) and distance metric-based losses(i.e.,Triplet and MSML) have complementary advantages to some extent.
对于卷积神经网络架构,融合使用这两种loss function是很好的选择.
Datasets
2007年,Gary等人发布第一个数据集VIPeR.
RGB image-based datasets
-
ViPER⭐️
背景、灯光条件、视角差别很大的 -
GRID
照明变化和低分辨率的 -
CUHK01
两个camera,一个正面或背面,另一个侧面的 -
CUHK03
the largest. -
Market-1501
采集于清华大学校园中的6个不同视角的摄像头
the Deformable Part Model (DPM) detector captures the boxes of pedestrians自动检测并切割. -
DukeMTMC-reID
来自8个高分辨率监控设备的1812个身份的36411个行人图像组成,其中1404个被两个以上的摄像头拍摄到,其余的被视为干扰识别 -
Airport
-
Partial-reID⭐️
60个行人的600张图像,每个行人有5张局部图像和5张全身图像
Video sequence datasets
3DPeS suffers from illumination and viewpoint variations. 光照和视角
ETHZ involves significant illumination variations and occlusions .光照和遮挡
PRID-2011 干净简单环境.
iLIDS-VID 视角、光照、服装相似、背景遮挡
MARS,the largest
Multi-modal datasets
RGBD-ID is created in different days and the visual aspects of the pedestrians may change.
SYSU RGB-IR⭐️
由4台RGB摄像机和2台红外摄像机捕获的,红外和RGB模式之间存在巨大差异.
SOTA
可以看到,深度学习 稳定发挥,但是在几个datasets的表现上(i.e.,ViPER,Partial-ReID,SYSU RGB-IR)仍然有较大提高空间.
未来应该创建更接近真实场景的新数据集,来解决训练的模型在实际场景中鲁棒性较差的问题.
Evaluation Metrics
- 累计匹配曲线CMC:曲线表示一个查询目标出现在不同大小的候选表中的概率值,但始终只计算第一个被匹配的标注数据.
- Accordingly,存在多个标注时,采用mAP作为衡量标准.
- FLOPs网络参数大小和每秒浮点数运算次数也作为评价指标.
Future research directions
- 基于未来部分的深度模型建议在局部特征中引入空间上下文和时间信息等关系信息。
- 忽略复杂背景,引入人体掩码学习分支.
- 如何基于GAN生成高质量样本的数据集呢?可以设计GAN模型扩增视频序列的dataset,增强泛化能力.
- person’s bbox大都假设框定好了但现实不是,融合检测和重识别 jointly
- datasets:Long term,Larger scale ,multi-modality data .
- 定义并优化位置的损失函数,并将其整合到最终的识别分数中,以减少检测的误差.
Multi-source多源数据行人重识别
1)不同的相机规格和设置,e.g.,high-resolution and low-resolution.
2)不同拍摄设备,非可见光设备,e.g.,Infrared and Depth image.
3)文本信息.
4)由专家或者数字传感器自动获得的图像,素描与数字照片.
low-resulution,如何提高识别输入图像有效特征的准确性并尽可能少地引入与行人重识别无关或不利的视觉结果是提高低分辨率行人重识别的关键.
Infrared ReID,研究主要使用特征空间投影转换等方法解决跨模态特征匹配的问题, 但由于红外数据跨模态识别的独特之处在于照明类型的变化, 与完全依赖机器学习或基于不变特征提取的方法相比, 基于物理知识的跨模态光度标准化建模或许更有效.
深度图像,视角和距离都很大影响到深度信息的判别力.
文本,标记不完整但是准确性高.
多源数据re-ID需要解决以下问题:
- real datasets are few and small.
- 针对特定的数据类型设计并选择合适的过滤无效信息的网络.
- 统一模态
- 集成
弱监督学习方法
无监督学习
半监督学习
针对每个行人存在较少标注:
EUG逐步一次性学习方法,从未标记的视频跟踪片段中逐步选择少量候选样本来扩充已标注的跟踪片段数据集.
针对只有少量行人存在标注:
迭代方法,通过多视角聚类方法对无标注数据进行聚类生成伪标签,然后用有标注数据和伪标签数据进行训练.
基于视频的行人重识别
backgroud:
1、设备、遮挡、视角、分辨率差异
2、视频帧间的时序信息没被充分利用
早期研究人员对传统特征提取算法进行改进,提出了HOG3D[1]和3DSIFT[2]
[1]三维梯度方向直方图,通过计算时空兴趣点周围局部区域内所有像素点对应的二维图像及时间域的平均直方图对时空兴趣点进行三维梯度特征描述.
[2]3D尺度不变特征变换,算法实质上是在不同尺度空间上查找特征点(关键点)的问题.
-
基于循环神经网络RNN的视频行人重识别
先CNN获得空间特征,再RNN聚合时序特征,经过池化获取最具表达力的特征信息. -
基于注意力机制的视频行人重识别
筛选序列中特征表达较强的部分帧. -
基于时空建模的视频行人重识别
通过专有的技术(3D卷积)捕获时空信息enhance feature.
遮挡Occluded Re-ID
解决方法大致有4类:设计匹配组件和策略,辅助模型和附加监督,注意力机制,图像变换.
-
The position misalignment
被遮挡的局部图作和整体图一样的对齐处理,导致内容不匹配出现位置偏差. -
The scale misalignment
遮挡可能会影响检测框的高度,thus,影响数据处理调整比例,导致比例失调. -
The noisy information
遮挡物出现在检测框中,带来噪声信息. -
The missing information
遮挡区域的身份信息缺失.
Potential solutions:
Matching,构造局部匹配元素和设计匹配策略,解决位置偏差、比例偏差和噪声信息问题.
基于生成对抗网络GAN
风格转换
数据增强
不变性特征学习
ResNet
refer:ResNet详解
网络的亮点:
- 超深的网络结构(超过1000层)
- 提出residual(残差结构)模块
- 使用Batch Normalization加速训练(丢弃dropout)
在ResNet提出之前,所有的神经网络都是通过卷积层和池化层的叠加组成的.
However,出现梯度消失/爆炸和退化等问题.
前者使用数据预处理和在网络中使用BN层来解决,后者使用残差结构来减轻影响.
小结
看的很杂,记得也很杂,没什么逻辑,但是大概的了解用来铺底,看不懂就多看看,到处看,多看几遍,相信勤能补拙.如人民日报所说,要坚信每天做一点的力量,敢于正视核心问题,保持学习的习惯.