【待更新】感知视频编码中的感知检测技术(显著性物体检测向)

本文探讨了视频编码中基于ROI的优化策略,重点在于显著性检测技术,将其作为ROI提取的重要手段。介绍了显著性检测的分类、方法及在视频编码中的应用,包括图像和视频显著物体检测技术的现状,强调了深度学习在显著性检测领域的进步。此外,还分析了不同网络结构,如FCN、HED和ConvLSTM,以及多尺度、多阶段等策略在显著性检测中的作用。文章最后讨论了视频显著物体检测与语义分割的关联,指出视频显著性检测领域面临的挑战和未来发展趋势。
摘要由CSDN通过智能技术生成

之前对ROI编码感兴趣,做了显著性检测方面的文献综述。截至到2019年1月13号有13400字。
现在搬上来,一来交流,二来重温

感知视频编码PVC

HVS

在这里插入图片描述
针对HVS所构建的数学模型分类
在这里插入图片描述
基于HVS可以做很多方面的改进,目前PVC有三种思路,分别是:基于视觉敏感度的、基于视觉注意力的以及混合编码。其中在基于视觉注意的思路中,最为常见的编码方式是基于ROI的编码。
在这里插入图片描述

基于ROI的视频编码

在基于ROI的视频编码任务中,任务所感兴趣的区域是:人眼可能会关注/注意到的区域,编码基本思路是:在视频编码前,对输入的视频场景进行视觉感知分析以确定感兴趣区域。在编码过程中,通过调整编码参数来分别控制感兴趣区域和非感兴趣区域的失真程度,进而改善感兴趣区域的编码质量。因此基于ROI的编码方法主要研究点在于:一是感兴趣区域的提取,二是编码参数的调整。
在这里插入图片描述

感兴趣区域的定义

对输入的视频序列,如何确定感兴趣区域是第一个关键问题,在开始梳理ROI提取方法之前首先解释以下若干术语的具体概念。
感兴趣区域(Region of Interest,ROI)起源于计算机视觉(Computer Vision,CV)领域,指的是CV任务所感兴趣的区域,ROI的定义会随着CV任务的不同而不同。在目标检测、语义分割等任务中也会出现ROI术语,ROI在这些任务中的定义与在视频编码中的定义是不一样,但是可能会相交,因此会出现用语义分割等的方法来解决视频编码领域中ROI提取的问题,这在后面的ROI提取技术现状部分将详细解释。
视觉注意力(Visual attention)起源于认知神经科学中,后面被引入到CV领域。视觉注意力属于注意力的一部分,注意力本身是一个很大的概念,我们只考虑观看图像视频这一情境下,此时视觉注意力是指观看者在观看视频图像时,将注意力所投放到的区域,也即眼睛关注的区域。
注意力在认知神经领域和CV领域都有对应的bottom-up和top-down(模型)分类。具体到视觉注意力中分别是:自底而上的视觉注意力(bottom-up visual attention)和自顶而下的视觉注意力(top-down visual attention),前者一般是指观看者在无意识的情况下被图像中的某些部分吸引而注意到;后者则跟人的主观想法有关,如任务驱动,比如当在观看篮球比赛时,观看者会根据自己的意愿,有目的地主动关注。
显著性检测(Saliency Detection,SD)是将视觉注意引入CV领域以后用来构建其数学模型的一类重要技术方法。
综上所述,在基于ROI的视频编码中,编码任务的感兴趣区域就是人眼所投注视角注意力的区域,因而显著性检测是一项重要的ROI提取方法。但是具体的ROI提取方法确定取决于视频编码是如何定义ROI的,而针对不同的编码场景会对ROI提出不同的要求、给出不同的定义。

ROI提取技术现状

通过上一小节对概念的梳理,明确了视频编码任务的ROI就是人眼的视觉注意区域,而用来对视觉注意建模最有效的一种方式就是显著性检测技术。因此,显著性检测技术时ROI提取的一项重要方法。除此之外,在某些具体的应用场景下,具体编码场景对ROI有具体的要求,此时也可以将ROI提取问题转为其他CV任务来解决。
人脸是最常见也是最容易引起观看者注意的特征之一,在特殊的应用场景下,根据需要可以将ROI直接定义为人脸。这样就将显著性检测任务转为人脸检测任务[27-29];还有由于人眼更倾向于关注视频场景中运动的物体,因此人对运动物体的失真比静态物体更加敏感,例如在观看单人跳水比赛时,观看者肯定时关注选手,这时候我们只需要应用视频的语义分割模型把运动的选手分割出来,高比特编码即可。这种问题的转换一般都是在有任务驱动的情况下才会成立的,通常对应的是自顶向下的注意力。

目前用到ROI视频编码中的视觉注意可计算模型主要是bottom-up类型的——通过一种或整合多种视频特征进而确定显著区域,对应的是自底向上的视觉注意力。采用的视频特征主要包括以下几种类型:l)空间域视频特征,如肤色[]、亮度[]、色度[]以及纹理[]等;2)时间域视频特征,比如运动[];3)综合考虑空间域和时间域的视频特征[]。
由于视频场景中的时域和空域的视觉信息都会对HVS的感知结果造成影响,近年来,基于时空域视觉特征融合的ROI视频编码越来越受到视频处理领域研究人员的关注。但是相比显著性检测本身的发展,应用在视频编码中的显著性检测技术相对滞后,主要还是依赖于人工设计的特征。本课题重点研究显著性检测技术在ROI提取中的应用,具体的显著性检测技术现状将在2.3节中具展开介绍。

基于ROI信息的视频编码优化策略

本课题将经过ROI提取之后得到的结果称为显著图(saliency map),显著图确定以后,很多编码参数可以根据显著图自适应地调整,使得更多的比特资源和计算资源可以分配到显著区域中。随着HEVC编码标准的提出和推广,在混合编码的大框架下,有越来越多的编码参数可供选择,参数的调整也越来越灵活。包括量化参数、块划分模式、块编码模式、帧内预测模式、帧间参考帧数目、运动搜索的范围、运动估计的精度。本课题以HEVC标准下的编解码方法为研究对象,以下主要对针对HEVC标准下的优化策略进行梳理。
从应用方式来说,分为“硬”优化和“软”优化,前者在编码过程中只区分显著区域和非显著区域,对于显著区域内部的各像素采用相同的编码方式[];而后者区分显著程度,编码器对不同程度的显著区域会给予不同程度的“重视”,一般是通过将显著图加权到原有编码计算上来实现的。
现有基于ROI的编码方法采用后者居多,但是考虑到目前引入到视频编码中的显著性检测方法自身的限制, “硬”编码还是有很大的发展空间的。将这在后续2.3节中在做讨论。
从优化位置来说,分为编码器外[]和编码器内[],后者又进一步分为率失真建模[]、码率控制[]和复杂度控制[]。率失真建模和码率控制是目前基于ROI的视频编码研究中主要应用ROI信息来优化的两大部分。
[]在开始编码之前,利用得到的显著图对原始输入视频帧做空间滤波,加重非显著区的模糊程度,这种方法没有调整编码参数,快速简单,在一定程度的效果。[]提出了类似的思路,在编码环节中,对预测误差进行滤波。
对于率失真模型部分,具体是对率失真计算公式进行改进。率失真公式主要有两点:失真的定义以及拉格朗日因子的定义。[]将显著图作为权重,加权到原来定义的失真上,[]也将显著图作为权重,加权到原来定义的拉格朗日因子上;而[]则是改变图片的质量评价标准,将从人眼主观出发而设计的SSIM质量评估准组替代原来的失真计算方法。
码率控制本身分为两大步,目前HEVC建议的码率控制算法为JCTVC-K0103[],这是一种基于R-λ模型的多层次码率控制算法。第一步是比特分配,JCTVC-K0103设计了GOP、图片、基本单元三种级别的比特分配,各级别有对应的比特计算公式。

[]在帧级别和CTU级别的比特分配计算中,分别将各级别对应的感知信息用作计算公式中的权重,其中帧级别的比特分配计算公式如下:

PSMF就是[]计算得到的视觉敏感度。另外,[183#]在LCU()级别上将传统采用MAD计算一个CTU权重的方法用基于显著图的方法代替,并保留原来的计算结果,最终的权重是传统方法和基于显著性得到的结果的折中,在一定程度上保留传统方法的结果,在一定程度上可以
另外[]针对CTU级别上的比特分配,借助二值化的显著图将ROI和非ROI区域分开,在帧级别分配结果的基础上为两个区域分配不同的比特数,各区域在随后的编码处理中相互独立。
[]则提出bpw(bit per weight,将显著值当作weight)的概念,以bpw为单元来计算分配得到的比特数,进一步得到以bpp为单位的比特数。
码率控制的第二步是利用率失真模型来达到每个级别分配的比特数,也就是确定各类编码参数,包括模式决策、运动估计以及量化参数等。具体通过率失真优化方式来在达到目标比特

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值