点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
胡钰彬
清华大学计算机系博士生
内容简介
由于需要对高帧速率视频进行逐帧预测,视频语义分割(VSS)是一项计算成本高昂的任务。在最近的工作中,已经提出了压缩模型或自适应网络策略来实现高效的VSS。然而,他们没有从输入端考虑影响计算成本的一个关键因素:输入分辨率。在本文中,我们提出了一种称为AR-Seg的改变分辨率框架,用于压缩视频以实现高效的VSS。AR-Seg旨在通过对非关键帧使用低分辨率来降低计算成本。为了防止下采样引起的性能下降,我们设计了一个交叉分辨率特征融合(CReFF)模块,并用一种新颖的特征相似性训练(FST)策略对其进行监督。具体来说,CReFF首先利用压缩视频中存储的运动向量将特征从高分辨率关键帧融合到低分辨率非关键帧,以实现更好的空间对齐,然后通过局部注意机制选择性地聚合融合特征。此外,所提出的FST通过显式相似性损失和共享解码层的隐式约束来监督具有高分辨率特征的聚合特征。在 CamVid和Cityscapes上进行的大量实验表明,AR-Seg实现了最先进的性能,并且与不同的分割主干兼容。在CamVid上,AR-Seg通过PSPNet18主干网络节省了67% 的计算成本(以GFLOP为单位),同时能够保持高分割精度。
论文链接:
https://arxiv.org/pdf/2303.07224.pdf
代码链接:
https://github.com/THU-LYJ-Lab/AR-Seg
Background
视频语义分割的主要任务是给视频中的每一帧图像上的每一个像素赋予一个带有语义的标签,但是如果对每一帧图像逐帧处理的话,需要耗费较高的计算代价。为了解决此问题,视频语义分割领域的学者从模型的角度提出了非常多的解决方案,比如使用轻量化的图像分割模型或者将对时域的操作划分为关键帧与非关键帧,从而达到减少整体计算量的目的。对于语义分割任务,图像大小、视频分辨率也是影响计算量的一个重要因素,所以本文的研究动机是探索从输入的角度来提升整体模型效率的方法。
Motivation
从输入分辨率的角度改善视频语义分割算法的效率
现有的关注视频语义分割效率的方法都是从模型的角度去考虑的,但是却忽略了一个很重要的因素,即输入分辨率,这会在很大程度上影响整体的计算量。所以我们希望从分辨率的角度入手,让整个视频语义分割算法变得更加高效。那么我们的核心思想是用高分辨率处理关键帧,低分辨率处理非关键帧,这样就可以在非关键帧上节省大量的计算量,而充分利用视频序列的时域相关性,就有可能弥补用低分辨率处理的非关键帧的性能损失。
如何利用时域相关性改善低分辨率图像的性能损失?
我们的想法是将高分辨率的特征融入到低分辨率的特征中,但是由于视频的内容是动态变化的,不同时刻的帧在空间上图片是无法对齐的,这会导致融合过程不合理。所以我们在特征融合的过程中提供一些移动的线索进行引导,并且发现光流可以提供这样的运动线索,但是光流的模型昂贵、计算量大,这将会浪费掉因分辨率减小而节省下来的计算量,是无法达到节省整体计算量的效果的。于是我们又注意到大多数视频都是由视频编码器压缩的,压缩视频中的运动矢量也可以提供这样的运动线索,并且几乎不需要任何成本。
Method
有效的压缩视频VSS框架AR-Seg
我们基于上述思路提出了如下所示的视频语义分割框架,它通过调整分辨率给压缩视频进行语义分割。左下图展示的是本文所提框架与其他框架的不同之处,图(c)与图(b)最大的不同之处在于P frame的特征提取器“体积”更小,是因为他的输入分辨率更低,所以计算量更小。此外,我们使用压缩视频中的运动矢量提供线索,用额外的CReFF模块做后续的特征融合,最后经过1*1的卷积层输出semantic label。右下图展示了整体的框架结构,即我们通过调整输入的分辨率节省计算量,并且该框架在节省计算量的前提下能够保证分割的准确性。由于该方法使用了高分辨率帧上的特征,以及利用CReFF模块进行特征融合等等操作,使得模型整体的性能不会被损失。
交叉分辨率特征融合(CReFF)模块
我们提出了交叉分辨率特征融合模块CReFF,希望将高分辨率的特征融合到低分辨率的分支中。在该模块中,输入是高分辨率特征、运动矢量、低分辨率特征,经过warping模块进行空间上的特征对齐,然后使用local attention进行低分辨率特征的Query操作。
特征相似度训练(FST)策略
除了对特征的操作外,我们还希望能够约束聚合出的特征,所以我们设计了两方面的约束操作引导聚合后的特征。一方面是显式约束:特征相似度损失,即在图像右侧利用高分辨率的输入经过网络训练得到高分辨率的输出,通过特征相似度训练,希望融合后的特征能够接近高分辨率输出;另一方面是隐式约束:共享解码层,即我们对于高分辨率和低分辨率的分支都使用了1*1的卷积解码层。
Experiments
下面展示我们的一些实验结果
与基于图像的方法对比
我们在Cityscapes和Cam Vid两个自动驾驶的数据集上进行验证,使用的帧结构为L=12。如下图所示是在不同分辨率下的结果对比,可以看到在变分辨率框架下得到的实验结果能够与基准分辨率1.0的实验结果非常接近,从MLU指标可以看到,经过分辨率的调整,可以大幅节省GFLOPs。
如左下图所示,我们在不同的轻量级的backbone上进行实验,显示出比较一致的效果,所提框架可以在降低计算量的同时保证MLU的性能。右下图分别从GFLOPs与运行时间上衡量模型的效果,可以发现该框架在调整分辨率的同时能够让运行效率大幅提升。
与基于视频的方法对比
得益于后续设计的特征融合模块以及用来监督和引导的两项约束,与前期的相关工作相比,AR-Seg是唯一一个能够节省计算量且保证准确性的方法。我们的方法可以保证在减少GFLOPs的同时mIoU仍然处于相对正常的水准。
CReFF、FST、关键帧间隔的设计
我们对特征融合模块CReFF、两项监督FST做了一些鲁棒性分析,并且观察在不同的keyframe interval下的性能表现。实验结果表明,该工作的设计是优于现有的对比方案的。
我们为低分辨率分支训练和评估不同分辨率的AR-Seg,范围从0.3x到1.0x。下左图(a)图中虚线代表的是image based方法的baseline,实线代表本文方法,可以看到在不同的分辨率上我们的方法都要优于image based的基线方法。除此之外,我们还关注了在帧结构中不同的关键帧间隔对模型性能的影响,如图(b)所示,L=12训练的AR0.5-PSP18在不同的GOP长度下保持了良好的性能。
我们还使用不同的实际比特率(3Mbps和1Mbps)和HEVC/H.265编码器配置来训练和评估我们的模型。结果表明,在不同配置下,AR0.5-PSP18的性能始终优于1.0倍恒定分辨率的同类方法,仅使用33%的GFLOPs。
Future Work
首先,我们可以在本文框架的基础上做更多的自适应调整与更多的分辨率层级;其次,我们可以在更多的Segmentation backbones上做尝试,观察是否能够实现计算量的节省;最后,本篇工作关注的是压缩视频,但是我们可以将类似的想法应用到其他video相关的应用中,比如Object tracking、instance segmentation等等,或者利用压缩视频中的现有信息去研究节省计算量的方法,这都会是一件非常有价值的事情。
整理:陈研
审核:胡钰彬
提醒
点击“阅读原文”跳转到1:09:48
可以查看回放哦!
往期精彩文章推荐
记得关注我们呀!每天都有新知识!
关于AI TIME
AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。
迄今为止,AI TIME已经邀请了1100多位海内外讲者,举办了逾550场活动,超600万人次观看。
我知道你
在看
哦
~
点击 阅读原文 观看回放!