点击我爱计算机视觉标星,更快获取CVML新技术
本文转载自起源人工智能研究院。
撰稿:Fahad Khan,孙国磊,廖胜才,卢宪凯
导语
CVPR (Conference on Computer Vision andPattern Recognition) 作为人工智能领域计算机视觉方向的最重要的学术会议,每年都会吸引全球最顶尖的学术机构和公司的大量投稿。
近四年的论文收录情况分别是:
CVPR 2016,投稿2145篇、录用643篇、录用率29.98%;
CVPR 2017,投稿2620篇、录用783篇、录用率29.89%;
CVPR 2018,投稿3359篇、录用979篇、录用率29.15%;
CVPR 2019,投稿5156篇,录用1299篇、录用率25.19%。
在CVPR 2019的激烈竞逐中,IIAI (Inception Institute of Artificial Intelligence, 起源人工智能研究院) 有25篇论文被录用。本文将挑选其中分别关于Tracking、Detection、Segmentation方向的三篇优秀论文做简要介绍。
1. Tracking
ATOM: Accurate Tracking by Overlap Maximization (Oral)
作者:Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, Michael Felsberg
论文地址:https://arxiv.org/pdf/1811.07628.pdf
代码地址:https://github.com/visionml/pytracking
(CVPR19 Oral,Github已有200+ star)
Motivation. 在线视觉跟踪(online visual tracking)是一个具有挑战性的问题:跟踪器通常需要根据最少的监督信息,如视频的初始帧,学习一个appearance model,然后模型要能泛化于各种各样的条件,如不同的目标形态、不同的光照等。
跟踪问题可以分解为目标分类任务(classification task)和目标估计任务(estimation task)。分类任务将图像区域分类为前景和背景,从而提供目标的粗略位置;估计任务给出目标的具体状态(如,2D位置和目标的长宽),通常由bounding box表示。
近年来,跟踪问题的研究一直集中在分类任务上,如在线训练correlation-filter-based tracker,利用各种强大的deep feature representations。然而估计任务的研究进展缓慢:多数工作仅简单暴力地通过多尺度搜索(multi-scale search)给出bounding box的具体状态。
我们认为这种过度依赖分类任务的跟踪方法有局限性,因为分类器对目标的具体状态并不敏感,多尺度暴力搜索过于简单且耗时。精准地估计目标状态应该需要有关该目标的高层先验信息,所以近年又有SiamRPN出现,集成先验信息、做大量离线训练。但是SiamRPN这类方法没有在线训练的过程,导致它不能很好地应对跟踪中的干扰。
本文在线训练分类器,并通过广泛地离线学习将高层先验信息运用到估计任务上。通过预测target和estimated bounding box的overlap来实现目标估计。
本文提出的ATOM跟踪模型在5个benchmark数据集上实现了state-of-the-art性能;在TrackingNet数据集上,相对于之前的最佳方法提升了15%,同时运行速度超过30 FPS。
Method. 本文提出了一种新颖的跟踪架构,包括专门用于目标分类和估计的组件。受最近提出的IoU-Net的启发,我们训练估计组件以预测target与estimated bounding box之间的IoU overlap,如Jaccard index。
由于最初的IoU-Net是class-specific的,因此不适用于通用跟踪,我们提出了一种新的架构,可以将target-specific信息用于IoU预测中。具体而言,我们引入一个模块化的网络组件,该组件将target appearance合并到图像中以实现target-specific IoU估计。这使得估计组件能够在大规模数据集上进行离线训练。跟踪时,仅通过最大化predicted IoU overlap即可找到对应的bounding box。
为了开发出一种无缝且透明的跟踪方法,我们还重新审视了目标分类问题,以避免不必要的复杂度。分类组件简单而强大,仅由两层全卷积组成。与估计组件不同,分类组件是在线训练的,提高了场景中抗干扰对象的鲁棒性。
为了保证跟踪实时性,我们针对在线优化中梯度下降不足的问题提供解决方法:采用Conjugate-Gradient-based策略,并展示了如何在深度学习中实现它。
ATOM整体架构. 如图可以看到分类网络和估计网络被整合到了一个网络框架中,两个任务使用了同样的主干网络,即ResNet-18,这部分是在ImageNet上预训练好的,然后在跟踪中第一帧上fine-tune。
目标估计使用离线训练的IoU预测模块,在大量的数据集上训练,这一块有四个输入,分别是参考帧的bounding box及主干网络提出的特征和测试帧的候选bounding box及特征,它会输出候选框对应的IoU值,最终的bounding box使用梯度下降最大化IoU值得到。
分类网络是在线训练的一个全卷积结构,用于增强分类器区别目标和场景中其他物体的判别力,输入当前帧搜索域的特征,它会输出目标位置的置信度。
目标估计组件的完整架构. 分为上下两部分,上半部分利用参考帧生成调制向量给下半部分测试帧的网络进行调制。两支的输入特征网络都是一致的。上半部分提出的是参考帧x0的参考目标B0的特征,输出一个正数的D维的调制向量c (D对应特征层数)。
而在测试帧x时,网络部分发生了变化,主干网络提出的特征后多接了一层卷积层,相应的后面pooling也变大了,之后用调制向量对特征的每一通道做了加权处理,即赋予了参考帧的信息,调制后的特征再被送给IoU预测模块g,即三个全连接层后输出IoU。所有卷积层和全连接层后面都进行BatchNorm和ReLU操作。
Experiments. 我们在五个benchmark数据集上(NFS, UAV123, TrackingNet, LaSOT和VOT2018)进行了全面的实验。结果表明,ATOM的性能在所有的数据集上都有明显的提升。如下所示。
State-of-the-art comparison on the NSF dataset.
State-of-the-art comparison on TrackingNet dataset.
State-of-the-art comparison on LaSOT dataset
State-of-the-art comparison on VOT2018 dataset
2. Detection
High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection
作者:Wei Liu, Shengcai Liao, Weiqiang Ren, Weidong Hu, Yinan Yu
论文地址:https://arxiv.org/abs/1904.02948
代码地址:https://github.com/liuwei16/CSP
52CV曾经第一时间对该论文做过解读:
CVPR 2019 行人检测新思路:高级语义特征检测取得精度新突破
Motivation. 目标检测通常采用传统的密集滑窗的方式或者当前主流的铺设锚点框(anchor)的检测方式,但不管哪种方式都不可避免地需要针对特定数据集设计甚至优化滑窗或锚点框超参数,从而增加了训练难度并限制了检测器的通用性。
能否跳出这种窗口式或锚点框式的限制而实现目标检测?
受启发于早期的属于低层视觉的特征检测或者感兴趣区域检测的思路,本文把目标检测当作一个具有高阶语义的特征检测任务,为目标检测提供一个新的视角。
具体地,像边缘、角点、斑点或感兴趣区域等低层特征检测,本文方法也扫描全图寻求感兴趣特征点,为此卷积是自然胜任的。但跟传统的底层特征不一样的是,本文进一步寻求具有高阶语义的抽象特征点,如行人、人脸等,而当今的深度卷积神经网络已经具备这种高阶语义的抽象能力。
此外,类似斑点或感兴趣区域检测,本文也同时为每个中心点预测出目标的尺度,这也是一个直接的卷积式预测。因此,本文以行人检测为例将目标检测简化为一个直接的全卷积式的中心点和尺度预测任务,并将该方法命名为CSP(Center and Scale Prediction)检测器。
虽然该检测器结构简单,但在主流的Caltech和Citypersons行人检测数据集中依然达到了当前最好的检测性能,同时具有与单阶段检测器相当的检测速度,因此是个简而可用的新的检测思路。
Method. 该方法一个简单的示意图如下图所示,首先将一张图像输入全卷积网络,基于网络提取的特征图再卷积式地预测两个映射图,一个以热图的方式呈现目标的中心点位置,一个负责预测目标的尺度大小。
在此基础上,便可以将两者映射到原图上并解译成目标检测框:中心点热图的位置对应检测框的中心位置,预测的尺度大小对应检测框的大小,而中心点热图上的置信度则对应检测框的得分。
Experiments. 本文提出的方法在Caltech和Citypersons行人检测数据集上进行了验证。在Caltech数据集上,结果如下图所示。
仅用Caltech训练集训练时,在测试集的合理(Reasonable)子集上,CSP的平均漏检率为4.5%,比当前最好的RepLoss的5.0%好0.5%。当对比的方法都在Citypersons上预训练时,CSP取得当前最好的平均漏检率3.8%。
在严重遮挡子集上,CSP没有预训练时比RepLoss好2.1%,有预训练时比RepLoss好5.3%。值得指出的是,CSP没有额外设计针对遮挡的策略,而RepLoss和OR-CNN是专门针对遮挡设计的。
在Citypersons数据集上,结果如下表所示。所有结果都是针对中心线标注,原始图像 (1024x2048)上测试的。
可以看出,在合理子集上,CSP比当前最好的ALFNet提升了1.0%,在严重遮挡子集上提升了2.6%,在小目标上提升了3.0%。
而测试速度与ALFNet相当,在NVIDIA GTX1080Ti单张显卡上每张1024x2048大小的图像平均用时0.33秒。特别是,同为无需锚点框的方法,CSP比TLL提升了4.5%,比TLL+MRF提升了3.4%。
近年流行的锚点框检测器取得了很大的成功,但依然是VJ检测器奠定的基础,其设计深受滑窗分类器的影响。
然而,深度卷积神经网络高度的语义抽象能力开辟了更广阔的潜力,使得抛弃锚点框成为一种可能,而本文提出的CSP检测器便是这方面的一种新的尝试。
目前已在行人检测和人脸检测上验证了有效性,未来可进一步考虑拓展到车辆检测和通用物体检测等相关的检测任务。
3. Segmentation
See More, Know More: Unsupervised Video Object Segmentation with Co-Attention Siamese Networks
作者:Xiankai Lu, Wenguan Wang, Chao Ma, Jianbing Shen, Ling Shao, Fatih Porikli
Motivation. 无监督视频目标分割(UVOS)需要自动确定给定视频的前景目标,并且将其分割出来。与半监督视频目标分割(SVOS)的算法不同,UVOS没有第一帧的信息,因此UVOS不仅要处理SVOS中常见的目标遮挡,形变,漂移等问题,还要根据帧之间的相关信息,从而确定出前景目标。
现有的UVOS算法,往往是利用轨迹(trajectory)来构造长期运动信息, 进而捕捉到前景目标。而 基于深度学习的方法,往往利用局部的运动信息,比如optical flow来构造双路的网络(two stream network),或者利用LSTM是学习局部的时序信息。
这些算法缺乏对全局信息的捕捉,无法综合利用视频帧内的相关信息 。我们这篇文章中,将UVOS看作是一个co-attention过程,提出了一个Co-attention Siamese Network(COSNet)来实现整个算法。
Method. 整个网络是一个Siamese Network,由三部分组成,分别是基础网络,Co-attention部分以及分割网络,如下图所示。其中基础网络是DeeplabV3,然后Co-attention 部分是全连接网络,分割网络是全卷积网络。整个网络可以端到端训练。
其中,Co-attention来源于自然语言处理,其表达式如下:
(1) 首先计算两个特征和之间的相似度矩阵。
(2) 然后对这个相似度矩阵S进行归一化(分别按照行和列进行归一化)。
(3) 基于归一化的矩阵分别计算彼此之间的attention summarization。
Experiments. 我们在DAVIS2016, FBMS以及Youtube Objects都进行了测试 ,并且都取得了最好的实验结果。下面是DAVIS2016的实验结果。
IIAI 主页:https://www.inceptioniai.org
另外,起源人工智能研究院正在招聘计算机视觉研究员,欢迎点击下面链接查看:
阿联酋起源人工智能研究院(IIAI)视频分析研究组招聘~薪资极具竞争力!
加群交流
关注跟踪、检测与分割技术,欢迎加入52CV-相应的专业交流群,下方扫码CV君拉你入群,验证信息请务必注明:跟踪 or 检测 or 分割。
喜欢在QQ交流的童鞋可以加52CV官方QQ群:702781905。
(不会时时在线,如果没能及时通过还请见谅)
长按关注我爱计算机视觉
麻烦给我一个“在看”!