【论文#快速算法】Region-of-Interest Based Resource Allocation for Conversational Video Communication of H.26

《Region-of-Interest Based Resource Allocation for Conversational Video Communication of H.264/AVC》
Author: Yang Liu; Zheng Guo Li; Yeng Chai Soh
Published in: IEEE Transactions on Circuits and Systems for Video Technology ( Volume: 18, Issue: 1, January 2008)
Page(s): 134 - 139
Date of Publication: 28 January 2008
ISSN Information:
Print ISSN: 1051-8215
Electronic ISSN: 1558-2205
DOI: 10.1109/TCSVT.2007.913754
Publisher: IEEE

摘要

由于H.264/AVC的复杂性,将其应用于设计会话视频通信系统非常具有挑战性。本文通过使用基于感兴趣区域(ROI)的比特分配和计算资源分配方案解决了这一问题。在我们的系统中,首先通过直接帧差和肤色信息检测ROI。随后,根据每个宏块(MB)的相对重要性,自适应调整多个编码参数,包括量化参数、模式决策的候选模式、参考帧的数量、运动矢量的精度以及运动估计的搜索范围。这样,编码器可以根据ROI分配更多的资源,如比特和计算能力。同时,通过使用基于ROI的率-失真-复杂度(R-D-C)成本函数,编码器在编码端优化了解码复杂度。因此,编码器得以简化并更加解码友好,整体主观视觉质量也得到了提升。

1.前言

H.264,也称为高级视频编码(AVC),为视频会议和视频电话应用提供了视频压缩策略[1]。H.264/AVC的新特性显著提高了编码效率,但同时也带来了极高的计算复杂度,特别是由于采用了新的技术,如基于率失真优化(RDO)的可变块大小运动估计/运动补偿(ME/MC)、多参考帧ME/MC和四分之一像素精度ME/MC。将这种复杂的编解码器集成到个人终端(如手机和PDA)中进行实时视频通信非常困难。因此,需要在计算复杂度和压缩比之间找到一个良好的平衡。

有许多有趣的研究成果旨在为H.264/AVC寻找快速的运动估计(ME)和模式决策算法,以简化编码复杂度。在[2]中,通过检测同质区域提出了一种快速的帧间模式块大小决策算法。[3]中的方案通过预先编码一个小的下采样图像,将候选模式限制在一个小的子集中。[4]中联合优化了运动矢量和模式决策。[5]利用变换域特性实现了高效的运动模式决策。上述快速ME和模式决策算法可以在略微牺牲质量的情况下减少计算复杂度。

大多数快速算法对每个宏块(MB)给予同等的重要性,而不考虑其对人类视觉系统(HVS)的相对重要性。然而,在许多视频应用中,用户会更加关注感兴趣的区域。例如,在实时视频通信中,肩部和头部视频总是被编码,而用户的兴趣区域(ROI)通常不是背景,而是人脸。因此,对于编码器和解码器而言,应该将更多的资源(包括比特和计算能力)分配给人脸,以提高整体视觉质量。ROI的概念是一种有效的图像分类工具,即它可以用来将图像划分为几个具有不同重要性的部分。当可用资源(包括比特和计算能力)不足时,可以利用ROI信息根据各部分的相对重要性最优地分配可用资源。通过这种方式,可以优化整体视觉质量。

在视频编码中使用ROI概念时存在三个主要问题:ROI的检测、基于ROI的比特分配和基于ROI的计算资源分配。前两个问题已经得到了较好的解决,并且有许多有趣的研究成果。在[6]和[7]中,ROI是通过两级神经网络分类器检测的。[8]中的方法利用模糊逻辑控制方法自适应地为每个宏块分配权重因子,因此根据率失真模型的复杂性,为每个宏块分配不同的比特数。在最近关于视觉敏感性的研究[9]中,通过使用颜色对比度、纹理对比度、运动信息、肤色和人脸识别的特征建立了HVS模型。尽管这些特征的集成可以恰当地指示HVS的感知质量显著图(PQSM),但提取这些特征的算法极其复杂,不适合计算能力有限的实时视频编码器。现有的大多数方案[6]–[9]在运动估计(ME)之后检测ROI,并调整编码参数(如量化参数)以使用更多比特编码ROI。这些现有的ROI检测方案不能直接应用于H.264/AVC,因为由于H.264/AVC中采用了率失真优化(RDO),在ROI检测中存在一个两难问题。运动信息对于ROI的检测非常重要,而这些信息是在RDO之后才可用的。RDO只能在量化参数(QP)的值确定后进行,但QP的值又只能在检测到ROI后才能计算出来。类似的问题也存在于H.264/AVC的速率控制中[10],但在我们之前的工作[11]中,通过使用可用的空间和时间平均绝对差(MAD)来估计实际的MAD,这个问题得到了适当的解决。此外,基于ROI的计算资源分配问题尚未得到充分研究。考虑到手持设备的计算能力非常有限,研究这一问题是必要的。

在本文中,我们将解决上述三个问题。提出了一种快速的ROI检测方案,该方案在运动估计(ME)之前检测ROI,从而解决了ROI检测中的两难问题。通过直接帧差和肤色信息来检测ROI。该检测方案因其简单的推导过程,适合于会话视频通信。接下来,为H.264/AVC设计了一种基于ROI的速率控制方案,该方案是我们之前速率控制方案[11]的改进版本。在新的方案中,相对较多的比特被分配用于编码ROI,从而提高了整体视觉质量。由于本文重点关注会话视频通信,而手持设备的计算能力通常有限,因此提供了一种简化的计算资源分配方案,考虑了编码和解码的复杂性。具体来说,需要适当调整多个编码参数(如ME模式、亚像素ME精度、ME搜索范围和多参考帧ME),以便将更多的计算资源分配给ROI。由于在ROI外部区域计算复杂度的降低,总体编码时间得以节省。

本文其余部分组织如下。第二部分介绍了我们为H.264/AVC标准设计的ROI检测方案。第三部分简要介绍了H.264/AVC的一种新型速率控制方案,并在本节中实现了基于ROI的比特分配。第四部分描述了确定ROI后的计算资源分配。通过提出的ROI检测方法和参数调整策略,我们的简化系统与JVT H.264/AVC参考软件JM9.8进行了比较,实验结果和讨论见第五部分。最后,第六部分给出了结论。

2. H.264/AVC会话通信的快速ROI检测

为了解决ROI检测中的两难问题,可以在运动估计(ME)之前利用连续帧之间的差异来设计一种快速的ROI检测方案。如图1(b)所示,两帧连续帧之间时域上的差异可以近似指示纹理梯度和运动扩展,这些信息在生成感知质量显著图(PQSM)时非常重要[9]。
在这里插入图片描述
与此同时,对于会话应用,人脸区域也应该被突出显示,因为即使在没有运动的情况下,人类视觉系统(HVS)也会更加关注人脸。有许多现有的方法可以从单个图像中检测人脸[18]。这些方法包括特征向量分解和聚类[19]、带有多项式核的支持向量机(SVM)[20]、使用隐马尔可夫模型(HMM)的高阶统计[21]以及空间灰度依赖(SGLD)矩阵[22]。尽管这些方法可以实现准确的人脸检测结果,但由于其高计算要求,它们在实时视频编码系统中难以实现。此外,对于基于宏块的视频压缩,高度准确的人脸检测并不是必需的。粗略的人脸轮廓信息就足以创建宏块级别的ROI掩模。因此,在我们的方案中,人脸检测被简化为快速而高效的颜色检测。我们的方案利用了[13]中提出的肤色模型,首先采用“参考白”的照明补偿技术来规范化颜色表现,肤色与亮度呈非线性依赖关系。检测到的肤色区域如图1©所示。由于面部的一些区域(如眼睛、嘴巴)可能未被检测为肤色,因此进一步使用了一个低通滤波器来扩展肤色区域,以覆盖更多的面部区域。扩展后的肤色区域如图1(d)所示。需要注意的是,由于HVS通常关注帧的中心[12],因此帧边界上的宏块不包括在肤色检测中。

由于视频序列是在宏块(MB)级别进行编码的,像素级别的直接差异和肤色信息被结合起来,以指示宏块级别的ROI重要性。
在这里插入图片描述
其中, i i i是MB索引, j , k j,k j,k是一个MB中的像素索引, F 0 F_0 F0 F 1 F_1 F1是两个连续的帧, p p p是一个二进制参数,表示当前这个像素是否被检测为肤色(1:是,0:否),并且 I R O I I_{ROI} IROI是MB级别的ROI指示器。

在图1(e)中,测试帧中每个宏块(MB)的 I R O I I_{ROI} IROI情况用灰度图表示,其中白色表示测试帧中的最大值,黑色表示最小值。

使用该信息创建ROI掩模的步骤如下三个步骤所述:
(1)MB级别的 I R O I I_{ROI} IROI先进行缩放为 μ [ i ] = I R O I [ i ] I ‾ R O I \mu[i]=\frac{I_{ROI}[i]}{\overline{I}_{ROI}} μ[i]=IROIIROI[i],其中 i i i表示当前帧中MB的索引号, μ [ i ] \mu[i] μ[i]表示第 i i i个MB检测ROI的重要性, I ‾ R O I \overline{I}_{ROI} IROI是当前帧中所有MB的平均 I R O I I_{ROI} IROI μ [ i ] \mu[i] μ[i]进一步被归一化为 μ [ i ] = m a x { μ L , m i n { μ [ i ] , μ U } } \mu[i]=max\{\mu_{L}, min\{\mu[i], \mu_U\}\} μ[i]=max{μL,min{μ[i],μU}},其中 μ L \mu_L μL μ U \mu_U μU是用来表示 μ \mu μ的上界和下界的两个常数,分别被设置成为1.0和2.0。 μ [ i ] \mu[i] μ[i]进一步被映射到 { − ( μ U − μ L 2 ) , μ U − μ L 2 } \{-(\frac{\mu_U-\mu_L}{2}),\frac{\mu_U-\mu_L}{2}\} {(2μUμL),2μUμL}范围内,公式为 μ [ i ] = μ [ i ] − 1 2 ( μ U + μ L ) \mu[i]=\mu[i]-\frac{1}{2}(\mu_U+\mu_L) μ[i]=μ[i]21(μU+μL)
(2)假设人类视觉系统(HVS)总是关注图像的中心[12],引入了一个帧边界ROI掩模。对于具有QCIF空间分辨率的序列,位于最上行和最左最右列的宏块被排除在ROI区域之外;而对于CIF空间分辨率的序列,边界扩展了一个宏块宽度。边界上的宏块值被设置为: − ( ( μ U − μ L ) 2 ) -(\frac{(\mu_U-\mu_L)}{2}) (2(μUμL))
(3)经过上述两个步骤后的初始ROI掩模如图1(f)所示的灰度图。虽然这个初始ROI掩模能够很好地指示ROI区域,但有时在局部区域内相邻宏块的值变化较大。如果编码器根据这些掩模中的值分配编码资源,高值宏块的视觉质量可能会远优于其邻近宏块。这将在ROI边缘引起块状伪影,并对整个图像的整体视觉质量产生不利影响。为了解决这个问题,对帧边界掩模内的所有宏块应用了一个加权3x3均值滤波器,以平滑初始ROI掩模。经过上述三个步骤后的最终检测ROI掩模如图1(g)所示,其中每个宏块的 μ \mu μ值也被指定为从白色( μ \mu μ μ U − μ L 2 \frac{\mu_U-\mu_L}{2} 2μUμL的最大值)到黑色( μ \mu μ − μ U − μ L 2 -\frac{\mu_U-\mu_L}{2} 2μUμL最小值)的灰度值。加权均值滤波器有效地去除了块状伪影。

Comments:
(1)先进行 I R O I I_{ROI} IROI的缩放,是在整帧的维度上去评判这样的一个MB的重要性,用 μ [ i ] \mu[i] μ[i]来描述。缩放时,还进行了clip的操作,防止溢出
(2)对于QCIF序列,第一行、第一列和最后一列的宏块不会被认为是ROI区域;对于CIF序列,前两行、前两列和最后两列不会被认为是ROI区域。如果宏块位于边界上,其 I R O I I_{ROI} IROI被认为是-0.5
(3)将前两个步骤中生成的ROI图像,再经过3x3的均值滤波器,去除ROI锐利的边缘。因为如果ROI边缘区域差异很大,可能在主观感知上产生不好的效果

3.基于ROI的H.264/AVC速率控制

在我们之前的工作[11]中,提出了一种针对H.264/AVC低延迟视频通信的新型速率控制方案([11] Y. Liu, Z. G. Li, and Y. C. Soh, “A novel rate control scheme for low delay video communication of H.264/AVC standard,” IEEE Trans. Circuits Syst. Video Technol., vol. 17, no. 1, pp. 68–78, Jan. 2007)。该方案引入了一种直接的MAD预测方法,以增强传统的线性MAD预测模型,后者不适用于预测突然的MAD波动。此外,还建立了一个精确的线性R-Q模型,以关联比特数和相应的量化参数(QP),如下所示:
在这里插入图片描述
其中, R s u m [ i ] R_{sum}[i] Rsum[i]是目标比特数,用于编码当前帧第 i i i个宏块的纹理和非纹理比特, M A D p r e d , a d a p t MAD_{pred,adapt} MADpred,adapt是通过我们的MAD估计方法[11]得出的自适应预测值, X 1 [ i ] X_{1}[i] X1[i] X 2 [ i ] X_2[i] X2[i]是R-Q模型的一阶和零阶参数, Q p [ i ] Q_{p}[i] Qp[i]可以根据 R s u m [ i ] R_{sum}[i] Rsum[i] M A D p r e d , a d a p t [ i ] MAD_{pred,adapt}[i] MADpred,adapt[i]计算得出,这些参数在运动估计(ME)之前都是可用的。通过这个R-Q模型,消除了以往速率控制方案中由于非纹理比特不准确和MAD预测估计不准确带来的影响。为了高质量地编码ROI,应将更多的比特(即更小的QP值)分配给对HVS更重要的宏块。

借助H.264/AVC中峰值信噪比(PSNR)和量化参数(QP)值之间的线性关系,我们提出的线性R-Q模型可以进一步优化QP的计算,以在宏块(MB)级别提供基于ROI的速率控制,即:
在这里插入图片描述
其中, a a a b b b是两个常数, N N N是一帧中宏块的数量,并且 a a a总是负值, w [ i ] w[i] w[i]是第 i i i个宏块的权重因子,可以选择以反映第 i i i个宏块失真的重要性,计算公式为 w [ i ] = ( 2 μ [ i ] + μ U ) w[i]=(2\mu[i]+\mu_U) w[i]=(2μ[i]+μU)。使用经典的拉格朗日理论,可以为每个宏块获得优化的QP值,如下所示:
在这里插入图片描述
其中 T [ i ] T[i] T[i]是编码第 i i i个MB之前剩余的比特数。从公式(4)得出的QP值应进一步限定,以保持视觉平滑性[11]。

Comments:
(1)先提出线性的R-Q模型
(2)给出公式(3),即QP的约束条件。这个约束条件可以这么理解, ( a × Q p [ i ] + b ) w [ i ] (a \times Q_p[i] + b) w[i] (a×Qp[i]+b)w[i]表示的是根据当前MB的ROI重要程度对QP进行的调整, m a x ∑ i = 1 N ( ) max \sum_{i=1}^{N}() maxi=1N()表示尽可能让整体的QP值偏大,因为QP值偏大,需要的码率就低
(3)公式(4)的由公式(2)的变形作为基础,随后将MAD展开,其中 ∑ k = i N w [ k ] w [ i ] M A D [ k ] \sum_{k=i}^{N}\sqrt{\frac{w[k]}{w[i]}MAD[k]} k=iNw[i]w[k]MAD[k] 表示第 i i i个块后面所有块,使用ROI的权重系数来调整的MAD。拉格朗日公式的推导需要看参考文献[11]。

4.基于ROI的计算资源分配

与之前的视频编码标准相比,H.264/AVC引入了许多新方法以增强其压缩性能,例如可变块大小运动估计(ME)、四分之一像素精度ME和多参考帧ME。由于这些新方法的采用,H.264/AVC编码器和解码器的复杂度显著增加。客户的个人视频终端(如手机和PDA)通常配备相对较低的计算能力。使用原始的H.264/AVC编码器和解码器进行实时会话视频通信非常困难。因此,编码器和解码器应通过根据ROI关注点自适应调整编码参数来进行适当简化。以下对此进行讨论。

4.1 编码器复杂度

(1)宏块候选模式:H.264/AVC提供了更灵活的宏块(MB)划分模式,从集合{INTRA16x16, INTRA4x4, INTER16x8, INTER8x16, INTER8x8, INTER8x4, INTER4x8, INTER4x4, SKIP, DIRECT}中选择。运动矢量和宏块划分模式都应使用拉格朗日方法通过率失真优化(RDO)来确定。然而,基于RDO的运动估计和模式决策需要对每个宏块划分模式执行一系列操作(如运动矢量估计、量化、整数变换、熵编码、反量化和反整数变换)。由于每个宏块存在多种可能的划分方式,从所有候选模式中选择最佳模式的计算量非常大。

我们将所有可能的宏块划分模式分为三个子集:子集0是{INTER16x16, SKIP, DIRECT},子集1是{INTER16x8, INTER8x16, INTER8x8},子集2是{INTRA16x16, INTRA4x4, INTER8x4, INTER4x8, INTER4x4}。通常,复杂模式(即子集2)的比例在 μ \mu μ值较高的宏块中更高。基于这一观察,使用一个简单的算法预先定义模式决策的候选模式,如下所示:
在这里插入图片描述
(2)参考帧数量:与仅允许使用当前帧之前和/或之后的帧作为参考帧的先前标准不同,H.264/AVC标准通过在帧间编码中提供多参考帧选项来提高编码效率。为了减少ROI外区域宏块的编码复杂度,非ROI区域的宏块的参考帧固定为当前帧之前和/或之后的帧。ROI内的宏块可以使用多个之前和/或之后编码的帧作为参考帧,以最大化其质量。候选参考帧的数量可以在编码前预定义。
(3)亚像素精度运动估计:H.264/AVC标准使用四分之一像素精度的运动矢量,而大多数先前的标准仅支持半像素精度的运动矢量。为了实现实时通信的快速视频编码,非ROI区域的宏块的运动矢量精度固定为半像素,而ROI内的宏块使用四分之一像素精度的运动估计。需要注意的是,ROI区域内的亚像素运动估计可以通过考虑解码插值复杂度进一步优化,如第四部分B节所述。
(4)运动估计搜索范围:设 S [ i ] S[i] S[i]为第 i i i个宏块的搜索范围, S ~ \widetilde{S} S 为预定义的常数,指定搜索范围。通常,较大的搜索范围( > 0.5 S ~ >0.5\widetilde{S} >0.5S )内的最大运动矢量在 μ \mu μ值较高的区域中占比较高。因此,第 i i i个宏块的搜索范围通过 S [ i ] = S ~ ∗ ( 0.75 μ [ i ] + 0.625 ) S[i]=\widetilde{S}*(0.75\mu[i]+0.625) S[i]=S (0.75μ[i]+0.625) 进行调整。显然,对于对HVS更重要的宏块,可以搜索更大的范围,而较不重要的区域的编码复杂度得以节省。

Comments:
(1)如果ROI权重为-0.5,划分的模式为{INTER16x16, SKIP, DIRECT};如果ROI权重为 (-0.5, -0.25),划分的模式为{INTER16x16, SKIP, DIRECT, INTER16x8, INTER8x16, INTER8x8};其他情况下,所有划分模式都会尝试
(2)ROI区域的宏块只能使用当前帧的前后一帧,即前面一帧和后面一帧都有可能使用,也有可能只用前面或者只使用后面。非ROI区域则没有这个限制
(3)非ROI区域的宏块只使用半像素精度,ROI区域的宏块使用1/4像素精度
(4)对于ROI区域,会适当增大运动搜索范围

4.2 解码器复杂度

H.264/AVC解码器的计算复杂度分析在文献[14]中有所介绍,由亚像素运动估计引起的插值是解码器中最耗时的部分,可能占用高达56%的解码时间。在会话视频通信中,用户终端的计算能力是有限的。除了在第四部分A节3中提到的预定义亚像素ME约束外,还需要提出一种基于ROI的解码友好方案,使得更多的解码资源被分配到高ROI兴趣区域(高值区域)。因此,应在编码端优化解码复杂度。

受文献[16]中提出的计算资源分配工作的启发,我们通过修改H.264/AVC的率失真(R-D)成本函数,将其变为率失真复杂度(R-D-C)成本函数,将解码复杂度纳入考虑:
在这里插入图片描述
其中, β m o t i o n \beta_{motion} βmotion β m o d e \beta_{mode} βmode是两个拉格朗日乘子,分别用于在运动矢量和划分模式确定过程中折衷解码复杂度,而 C m o t i o n C_{motion} Cmotion C m o d e C_{mode} Cmode分别是表示在运动矢量和划分模式确定阶段的解码复杂度的参数。在这里, C m o t i o n C_{motion} Cmotion是根据当前运动矢量的插值复杂度计算的,而 C m o d e C_{mode} Cmode是当前模式中所有运动矢量的插值复杂度之和。插值复杂度的详细信息可以在文献[15]中找到。

较高的 β m o t i o n \beta_{motion} βmotion β m o d e \beta_{mode} βmode值可以减少解码复杂度,但会以视频质量下降为代价。为了根据每个宏块的相对重要性从ROI中节省更多的解码资源, β m o t i o n \beta_{motion} βmotion β m o d e \beta_{mode} βmode的值进行如下调整:
在这里插入图片描述
Comments:
(1)解码器中最耗时的部分是亚像素插值,可能会占据56%的解码耗时
(2)在编码端修改RD函数为RDC函数,增加了 C m o t i o n C_{motion} Cmotion C m o d e C_{mode} Cmode这两个描述解码复杂度的参数。由参考文献[15]获得([15] Y. Wang and S. F. Chang, “Complexity adaptive H.264 encoding for light weight streams,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., Toulouse, France, May 2006, p. II–II.)
(3)依据ROI区域对参数 β \beta β进行调整,因为这会对视频质量产生负面影响

5.实验结果

本节评估了基于ROI的资源分配方案的性能。实验中使用了几个标准的MPEG测试序列,分辨率为QCIF(176×144)。模拟实验使用了最新的JVT参考H.264/AVC软件JM9.8 [17],其中采用了文献[10]中的方案来调节比特率,而本文第三部分提出的速率控制方案则在我们的编码器中使用。由于本文研究的是实时会话视频通信,所有测试序列的第一帧(I帧)都是内部编码,随后的帧(P帧)为帧间编码。缓冲区大小设置为 0.1 ∗ b i t r a t e 0.1 * bitrate 0.1bitrate,即最大缓冲延迟限制为100毫秒,以满足会话低延迟要求。运动估计(ME)的搜索范围设置为16像素。启用了率失真优化(RDO)和上下文自适应二进制算术编码(CABAC)。参考帧的数量设置为2。启用了四分之一像素精度的运动估计。需要注意的是,为了适应我们基于ROI的计算资源分配方案,某些编码参数应进行自适应调整。

当缓冲区溢出时,编码器会跳过帧,直到缓冲区有可用空间。当缓冲区下溢时,某些带宽将会浪费。因此,设计一个好的缓冲控制方案以减少甚至防止缓冲区溢出和下溢是非常必要的。从表I中可以明显看出,这一点通过我们基于ROI的速率控制方案得以实现。实际帧比特数与目标帧比特数之间的不匹配减少了多达80%,并且我们的基于ROI的速率控制方案也可以像JM9.8一样精确地匹配目标比特率。表I还指出了每帧进行运动估计/运动补偿(ME/MC)所需的时间,我们的编码器最多可以节省73%的ME/MC时间,这使得自适应编码器更适合计算能力有限的实时应用。同时,由于在编码端考虑了ROI的重要性,插值复杂度最多减少了35%,这得益于第四部分B节中描述的R-D-C模型。这里,插值复杂度是通过文献[15]中描述的方法计算的。
在这里插入图片描述
尽管我们方案的平均PSNR值略有下降,但视觉质量有所提升。这表明PSNR值有时不能充分反映主观视觉质量,尤其是在低比特率下,因为一些令人不悦的特征(如块效应和振铃效应)无法通过PSNR值体现。平均PSNR值是在不考虑HVS敏感性的情况下,对所有宏块赋予相同权重计算得出的。根据感知心理研究的先前结果[9],对ROI和ROI外区域的感知敏感度差异可能在0到9.4dB之间。因此,仅使用PSNR值来评估重建的视觉质量是不够的。

一个主观视觉质量比较的例子如图2所示。可以看出,检测到的ROI掩模能够很好地表示HVS的敏感区域。尽管我们简化编码器重建帧的PSNR值略低于JM9.8的结果,但主观质量明显改善。请注意,我们选择了一些PSNR略有损失的帧,以表明即使PSNR值较低,所提出的自适应编码器仍能实现比JM9.8更好的视觉质量。通过对背景的进一步详细比较,可以在ROI外区域观察到一些轻微的失真,例如图2中椅子的边缘。幸运的是,这种噪声对HVS不敏感,不会让视频用户感到不悦。
在这里插入图片描述

仿真结果表明,我们提出的带有ROI关注的编码器能够自适应地利用有限的计算资源,在比JM9.8更短的处理时间内实现更好的视觉质量。我们的简化编码器更适合实时会话通信。

6.结论

我们提出了一种基于ROI的H.264/AVC系统,适用于实时会话视频通信。该系统可以满足高压缩比、低计算复杂度和低延迟传输等要求。在我们的方案中,首先通过直接帧差和肤色信息检测ROI掩模。与之前的ROI检测方案相比,我们的方法更容易在现有的H.264/AVC编码器中实现,因为ROI检测方案易于推导。当有效确定ROI掩模后,更多的资源(包括比特和计算能力)会被分配到ROI区域。因此,根据ROI掩模,需要在宏块级别自适应地调整多个编码参数(如量化参数QP、宏块候选模式、参考帧数量、运动估计精度和运动估计搜索范围)。通过这种方式,对HVS更敏感的区域的视觉质量得到了强调,从而提高了整体的主观视觉质量。同时,通过在编码端使用基于ROI的R-D-C成本函数优化解码复杂度,构建了一个解码友好的方案。

Comments:
(1)本文以ROI为基础,主要的思想是快速算法,通过控制块划分模式、参考帧数量、亚像素运动估计、运动搜索和修改RDO公式,来降低编解码耗时
(2)为了改善质量,引入了ROI的码率控制,调整了MB级别的QP,并且在后续的主观质量评估上取得了很好的效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值