行人重识别论文阅读(2021.7.26-8.1)

一 

CVPR 2021【行人/车辆重识别】相关论文和代码(基本更新完毕) - 知乎 (zhihu.com)

CVPR2021:

无监督:3,4,10

无监督域适应:2,10,16

域泛化:5,13,19,21

基于视频:1,11,12

预训练:6(虚假数据),18(无监督)

跨模态:7,20

表征学习:9

特征网络:14

终身学习:15

遮挡:22

换衣问题:23(3D),24,26

图模型:25

基于图片的行人再识别(有监督,无监督,跨域,在线学习,多模态),基于视频的行人再识别,行人检索

二 方法介绍

1.IGPN(检测网络)

【1】W. Dong, Z. Zhang, C. Song and T. Tan, "Instance Guided Proposal Network for Person Search," 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 2582-2591, doi: 10.1109/CVPR42600.2020.00266.

paper:https://openaccess.thecvf.com/content_CVPR_2020/papers/Dong_Instance_Guided_Proposal_Network_for_Person_Search_CVPR_2020_paper.pdf

这篇文件是person search领域的一篇文章,通过改进检测网络的性能,来产生更适合于ReID的检测框。

person search任务不同于ReID任务,两者的query相同,而gallery不同,person search任务中的gallery由很多街景图片组成(行人并未被框出或裁出)。于是检测框的质量就很重要,而IGPN可以减小检测候选框的数量(筛除掉无关的检测框),他的主要创新点是:(1)引入了SiameseRPN(参考https://blog.csdn.net/qq_35945399/article/details/81192003),并且提出Improved Cross-correlation Layers来有效降低其参数量。(2)提出类Non-local的结构local relation block来融合proposal内的相关关系,加入Global relation branch来判断图内是否含有有效检测框。

利用整个的结构为:

模型输入为一张Query和一张Scene image,首先通过Siamese RPN网络(来自于单目标追踪),计算query与scene image中各个propoal的相似度矩阵,之后分两支各自通过特征提取网络2和一个池化层得到特征,用fp减去fq后经过一个全链接网络得到相似度特征,之后利用r1和fp用过Relation block计算r2(这一思路借鉴了Non-Local,可以参考https://zhuanlan.zhihu.com/p/33345791),得到r2后有三个分支,除了边界回归和相似度计算,还引入了global supervision,两分类损失(scene中有或没有query)。

在Person search任务的两个数据集CUHK-SYSU和PRW上取得了很好的结果。

(2)

Bi-Directional Interaction Network for Person Search

(3)

(4)Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. In CVPR, pages 9729–9738, 2020.

(4)fine-tune

无监督太难了,有时间再看吧

(5)A Comprehensive Overhaul of Feature Distillation

[5] Heo B , Kim J , Yun S , et al. A Comprehensive Overhaul of Feature Distillation[J]. 2019.

paper:[1904.01866] A Comprehensive Overhaul of Feature Distillation (arxiv.org)

code:https://sites.google.com/view/byeongho-heo/overhaul

一篇知识蒸馏的文章,模型的整体结构为

首先是知识蒸馏的位置,本文选择了来自于ReLU层前的特征(ReLU会丢失一些信息):

为了使教师模型和学生模型的特征维度相同需要对其进行变换,其中Tt和Ts分别指的是对教师模型的特征和学生模型的transform,其中教师模型的transform为其提出的margin ReLU,对于负值进行抑制(无需精确学习,只需要也小于0),对于正值保留(需要学习).

 

对于学生模型的变换为,1*1的卷积进行维度变换,变换到与教师模型相同的维度,接一个BN层。之后对变换后的特征计算loss,采用L2损失为蒸馏损失,loss的计算方式为

  

 

 

(5)Deep High-Resolution Representation Learning for Human Pose Estimation

论文阅读 - Deep High-Resolution Representation Learning for Human Pose Estimation - AI备忘录 (aiuai.cn)

(2条消息) 姿态估计1-07:HR-Net(人体姿态估算)-源码无死角解析(3)-模型总体结构_江南才尽江南山,年少无知年少狂!-CSDN博客

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值