本文总结CVPR 2021 行人相关技术论文,包括人群计数、行人检测跟踪、步态识别等。共计 7 篇。
大家可以在:
https://openaccess.thecvf.com/CVPR2021?day=all
按照题目下载这些论文。
如果想要下载所有CVPR 2021论文,请点击这里:
拥挤人群计数
Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting
当前的一些人群计数方法多为只使用 RGB 图像的有限信息,对于无限制场景下的隐藏行人效果不好。
在本次的研究中,作者发现结合光学和热学信息可以大大有助于识别行人。为了促进这一领域的未来研究,该文引入大规模的 RGBT 人群计数(RGBT-CC)基准,其中包含 2,030 对 RGB-热图像和138,389个标注的人。此外,为了促进多模态人群计数,提出一个跨模态协同表征学习框架,它由多个特定模态分支、一个模态共享分支和一个信息聚合-分配模块(IADM)组成,以充分捕捉不同模态的互补信息。
在 RGBT-CC 基准上进行的大量实验证明所提出框架对 RGBT 人群计数的有效性。此外,所提出的方法对于多模态的人群计数是通用的,并且能够在ShanghaiTechRGBD 数据集上取得优异的性能。
作者 | Lingbo Liu, Jiaqi Chen, Hefeng Wu, Guanbin Li, Chenglong Li, Liang Lin
单位 | 中山大学;琶洲实验室;安徽大学;DarkMatter AI Research
论文 | https://arxiv.org/abs/2012.04529
代码 | https://github.com/chen-judge/RGBTCrowdCounting
主页 | http://lingboliu.com/RGBT_Crowd_Counting.html
有预训练,98m:
Cross-View Cross-Scene Multi-View Crowd Counting
文章中提出一个跨视角跨场景(CVCS)的多视角人群计数范式,其中训练和测试发生在具有任意摄像机布局的不同场景。
为了动态地处理在场景和相机布局变化以及由于相机校准错误或错误特征造成的非对应性噪声下的最佳视图融合的挑战。提出 CVCS 模型,利用相机布局的几何形状来仔细选择和融合多个视图,并采用噪声视图正则化方法来训练该模型以处理不对应的错误。还生成一个大型的合成多摄像机人群计数数据集,其中有大量的场景和摄像机视角,用来捕捉更多可能的变化,避免了收集和标注这样一个大型真实数据集的困难。然后,通过使用无监督的域迁移,在真实的多视角计数数据集上测试所训练的 CVCS 模型。
在合成数据上训练的拟议的CVCS模型优于只在真实数据上训练的同一模型,并且与在同一单一场景上训练和测试的完全监督方法相比,取得不错的性能。
作者 | Qi Zhang、Wei Lin、Antoni B. Chan
单位 | 香港城市大学;西北工业大学
论文 |
https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Cross-View_Cross-Scene_Multi-View_Crowd_Counting_CVPR_2021_paper.pdf
A Generalized Loss Function for Crowd Counting and Localization
文章中提出一个用于人群计数和定位的学习密度图的广义损失函数,它是基于非平衡最优传输的。并证明传统的 L2 和贝叶斯损失是该损失函数的特例和次优解。又提出一个视角引导的 cost function(成本函数)来处理人群图像中的视角转换。在广泛的实验和大规模数据集上取得了卓越的性能。该文所提出的损失函数应用于人群定位,在没有任何特殊设计的架构下取得了最佳性能。
作者 | Jia Wan 、Ziquan Liu 、Antoni B. Chan
单位 | 香港城市大学
论文 |
https://openaccess.thecvf.com/content/CVPR2021/papers/Wan_A_Generalized_Loss_Function_for_Crowd_Counting_and_Localization_CVPR_2021_paper.pdf
行人检测
Variational Pedestrian Detection
文中将以独特的视角将行人检测作为一个 variational inference(变分推理)问题。通过将 dense proposals 建模为一个隐变量,同时提出一个定制的 Auto Encoding Variational Bayes(AEVB)算法,为行人检测制定了一个新颖有效的算法。
在 CrowdHuman 和 CityPersons 数据集上进行的实验表明,所提出的算法是处理单阶段检测器的密集行人检测问题的有效解决方案。并且该方法也可以灵活地应用于两阶段的检测器,实现明显的性能提升。
作者 | Yuang Zhang, Huanyu He, Jianguo Li, Yuxi Li, John See, Weiyao Lin
单位 | 上海交通大学;蚂蚁集团;赫瑞-瓦特大学
论文 | https://arxiv.org/abs/2104.12389
Generalizable Pedestrian Detection: The Elephant In The Room
这篇文章是不折不扣的行人检测学界“打脸文”,作者通过不同数据集的跨库评估研究现有行人检测算法的泛化性,发现结果并不如人意,这很可能因为1)算法设置针对特定数据集,2)训练源往往行人并不密集。有意思的是作者还发现那些并不是为行人检测设计的通用的目标检测方法泛化表现更好。
最后作者发明了一种渐进式的训练方法,取得了更好的跨库检测性能,并希望业界关注跨库测试。
(CV君:很明显在各个方向都需要这样的评估和研究)
作者 | Irtiza Hasan, Shengcai Liao, Jinpeng Li, Saad Ullah Akram, Ling Shao
单位 | IIAI;阿尔托大学
论文 | https://arxiv.org/abs/2003.08799
代码 | https://github.com/hasanirtiza/Pedestron
有预训练,https://drive.google.com/open?id=1B487ljaU9FxTSFaLoirOSqadZ-39QEH8
行人跟踪
Tracking Pedestrian Heads in Dense Crowd
在本文中,作者提出一个新的数据集:CroHD,其中有标注的行人头部,用于在密集的人群中进行追踪,并为 CroHD 提出一个基线头部检测器:HeadHunter,通过扩展 HeadHunter 作为 CroHD 的基线头部追踪器来开发 HeadHunter-T,提出一个新的指标,IDEucl,用于评估追踪器在代表ground truth 轨迹方面的效率,最后,通过与 CroHD 上现有的三个最先进的追踪器进行比较,证明 HeadHunter-T 是一个强大的基线。
作者 | Ramana Sundararaman, Cedric De Almeida Braga, Eric Marchand, Julien Pettre
单位 | Univ Rennes;
论文 | https://arxiv.org/abs/2103.13516
代码 | https://github.com/Sentient07/HeadHunter
没有开源预训练。
步态识别
Cross-View Gait Recognition with Deep Universal Linear Embeddings
在本次研究中,作者将 Koopman 理论引入到 gait silhouettes 的动态特征提取中。并且作者表示这是第一个应用 Koopman 分析的研究。通过整合卷积变分自动编码器和深度 Koopman 嵌入,提出一个新的跨视角步态识别框架。以及在一个广泛使用的大型步态数据库 OU-MVLP 上进行了实验。结果证明了所提出方法的有效性,为理解步态识别和人类行走动态之间的联系做出了重要贡献。
作者 | Shaoxiong Zhang, Yunhong Wang, Annan Li
单位 | 北航
论文 |
https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_Cross-View_Gait_Recognition_With_Deep_Universal_Linear_Embeddings_CVPR_2021_paper.pdf