行人检测、跟踪与检索领域年度进展报告



转自:深度学习大讲堂




编者按:在过去一年里,行人检测、行人跟踪和行人检索三项技术,在工业界已全面落地开花,其被广泛应用于人工智能、车辆辅助驾驶系统、智能机器人、智能视频监控、人体行为分析、智能交通等领域。然而,由于行人兼具刚性和柔性物体的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,行人检测仍然是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。南京理工大学的张姗姗教授将带着大家回顾在过去的一年中,这三个领域在学术界的研究进展。文末提供张教授报告中提到的所有论文的下载链接。


行人检测,就是将一张图片中的行人检测出来,并输出bounding box级别的结果。而如果将各个行人之间的轨迹关联起来,就变成了行人跟踪。而行人检索则是把一段视频中的某个感兴趣的人检索出来。


行人检测


卷积神经网络为通用物体检测任务带来了全面的性能提升。而行人检测技术也使用了Faster R-CNN 这样的通用检测框架,因而性能也得到了很大的提升。在 CVPR 2015中,当时在竞赛中的最好方法使用的还是传统的ACF 检测器,其漏检率是18.5%;而在 ECCV 2016中,在使用了 CNN 后,行人检测漏检率降低到了9.6%。


在过去的一年中,行人检测领域的工作大致可被归为以下三类:


第一类是将传统的检测方法Boosting trees 和 CNN 结合起来。张姗姗等人在CVPR 2016的工作是使用 ICF 提取proposal,然后使用 CNN 进行重新打分来提高检测的性能;在 ECCV 2016上,中山大学林倞教授课题组使用RPN 提取 proposal,同时提取卷积特征,然后使用 Boosting trees进行二次分类,性能得到了很大的提升。


第二类是解决多尺度问题,例如在视频数据中人的尺度变化问题。颜水成教授课题组提供了一种解决方法:训练两个网络,一个网络关注大尺度的人,另一个网络关注小尺度的人,在检测时将两个网络进行加权融合得到最终的结果,这样能使性能得到很大的提升;UCSD 在 ECCV 2016上有一个类似的工作,提出在高层提取大尺度人的特征,在低层提取小尺度人的特征,这样能保留尽量多的信息量,使得对小尺度的行人也有较好的检测效果。


第三类是使用语义分割信息来辅助行人检测。首先对整个图像进行语义分割,然后将分割的结果作为先验信息输入到检测网络中(包括传统的 ICF 网络,以及现在常用的CNN),这样可以通过对整体环境的感知来提高检测的效果。


区别于通过提出一些新方法来提高检测率的科研方式,2016年张姗姗等人从分析的角度对各个工作进行总结和归纳。通过分析错误案例来找到错误来源,并提出相应的解决方案以进一步提高检测率。研究发现,在高层级中主要有两类错误,分别是定位错误和背景分类错误。可以尝试两个解决方案,其一是针对检测框对齐性比较差这一现象,可以通过使用对齐性更好的训练样本标签来解决;而针对模型判别能力比较差的问题,可以通过在传统的 ICF 模型上使用 CNN 进行重新打分来提升检测的性能。


行人检测任务存在一个领域迁移能力差的问题,例如在 Caltech dataset 上训练的模型在其上的性能很好,但是其在 KITTI dataset上的性能却比较差。之所以出现这样的问题是因为现有的数据集的多样性不够,CVPR 2017上将会公布一个新的行人检测数据集:CityPersons。CityPersons数据集是脱胎于语义分割任务的Cityscapes数据集,对这个数据集中的所有行人提供 bounding box 级别的对齐性好的标签。由于CityPersons数据集中的数据是在3个不同国家中的18个不同城市以及3个季节中采集的,其中单独行人的数量明显高于Caltech 和 KITTI 两个数据集。实验结果也表明,CityPersons 数据集上训练的模型在 Caltech 和 KITTI 数据集上的测试漏检率更低。也就是说,CityPersons数据集的多样性更强,因而提高了模型的泛化能力。


多人跟踪


在行人跟踪任务中的一个非常重要的子任务是多人跟踪,其中比较常见的是基于检测的跟踪,也就是将每一帧的检测结果关联成轨迹,每个行人目标都有各自的轨迹。在MOT排行榜上前六名的方法中,有三个使用了将跟踪问题转化为聚类问题的multi-cut 模型,并使用组合优化方法进行求解。multi-cut模型是一个非常简洁的模型,没有使用一些特定技巧,超参数也较少,其缺点是实时性比较差,速度不到1FPS。在 CVPR 2017上有个工作通过对求解器进行改进之后速度能达到8FPS,用multi-cut模型来求解跟踪问题,不失为一个很有前景的研究方向。


行人检索


关于行人检索,也称为行人再识别,从工程的角度来说,一个实用的行人再识别系统是包含行人检测,跟踪和检索三个子模块的,但是因为行人检测和行人跟踪一般是作为单独的课题进行研究,所以行人再识别主要关注的是检索方面的问题。 行人再识别早年的工作主要是基于图像的,即给定一个待检索行人(probe),在原型图像集上找到同一个人(gallery)。近几年开始出现一些基于视频的工作,此时 probe 和 gallery 也相应地变为了视频序列。


在行人检索这个领域,既有传统的方法也有深度学习的方法。传统方法主要基于度量学习,而深度学习方法最经典的模型是孪生网络,过去一年中提出了一些新的方法,就是为孪生模型上增加一些新的模块,包括使用新的损失函数、基于身体部位表示以及属性学习等方法。如果输入是视频的话,对序列提取特征时就需要对多帧进行池化操作。池化方法可采如传统的最大值池、均值池化、以及 ECCV 2016中提出的自学习的池化方法来学习更好的池化方式。


悉尼科技大学在 ECCV 2016上发布了一个基于视频的行人再识别的数据集 MARS dataset,与先前的数据集相比,其规模更大,轨迹和框的数目都更多。


总结


由于人在图像和视频数据中始终是重点关注的对象,所以吸引了很多研究者从事这方面的工作。而深度学习以及大规模的数据库更是推动了这个领域的发展。行人检测、行人跟踪、以及行人检索技术是紧密相连不可分割的,如果有更好的行人检测方法,也会推动行人跟踪和行人检索技术的发展,同时最新研究表明,行人检索可以辅助行人跟踪任务。所以,行人检测、行人跟踪、以及行人检索技术三者结合将是一个很好的研究方向。


文中提到所有论文的下载链接为:

http://pan.baidu.com/s/1eRO9xoY



致谢:

本文主编袁基睿,诚挚感谢志愿者范琦、贺娇瑜、李珊如对本文进行了细致的整理工作。


该文章属于“深度学习大讲堂”原创,如需要转载,请联系 astaryst。


作者简介:

张姗姗教授,于2015年博士毕业于德国波恩大学计算机系,后在德国马普计算机研究所任博士后研究员。2016年29岁的张姗姗回国任南京理工大学计算机科学与工程学院教授,研究领域涉及目标检测、及无人驾驶中的视觉感知技术,发表各类国际会议及期刊数十篇,是一位美貌与智慧并重的青年学者。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值