MPEG-2

面向广播行业和后期制作工程师MPEG-2基本问题
------视频和网络部分白皮书


介绍

本文将探讨MPEG-2标准规定的数字化视频表达方式,并将研究关于新近采纳的主级中4:2:2 类的一些关键性问题。特别的,我们将研究这一新类的基本原理,以及它为广播行业和后期 制作部门带来的益处。

本文的目的是要明确不同的MPEG类和级的适当应用场合,展示新的4:2:2类的必要性。我 们也将谈及标准所要求的编/解码器兼容性问题,对于4:2:2视频表现能力日益增强的需求, 以及主级中4:2:2类是如何使MPEG-2高效率地发挥其优势的。 主级中新的4:2:2类最近己成为MPEG标推的一个正式组成部分。广播和后期制作行业的人士无法接受以前的MPEG-2主级中各类所提供的低色度带宽选择,而主级中的4:2:2类,对于 提供高质量的MPEG压缩视频,将被证明是个等待己久的解决方案。 Tektronic的观点是50年仪器,广播和视额设备设计历史的结晶,也是我们在成功帮助MPEG-2 标准朝着提供新的,高效率的广播质量视频节目发展的过程中的产物。在接下来的文章中, 我们将分享这些观点和经验:在这一过程中,我们希望对于各位成功的将这一令人激动的新 科技用于未来的采集,存储,传输及后期制作系统能够有所帮助。


视频压缩基本概念

背景知识

在过去的几年里,关于视颇压缩的争论己成为—个极其热门的话题,但有趣的是,视频信号 的压缩并不是一个新问题。许多人并没有意识到,伴随着1950年代彩色电视的引入,视频 压缩第一次商品化了。三幅分别显示红,蓝,绿的最高分辨串的图象,共占用15MHZ的总带 宽;但被压缩成一路仅占5MHZ的复合信号——3:1的带宽压缩率被引入了。这种方式虽然 简单,但毕竞是压缩了。 当然,这种早期的压缩方式是通过模拟技术实现的。今天,更稳定连续的图象质量,更高的 压缩串可以通过把模拟信号转换为数字信号,利用一些高度复杂的技术来完成的。这些技术 最终带来了更高的压缩效串和更精细的压缩图象处理方法。这些数字技术需要极为强大的计 算能力,直到最近在经济上仍然是不可行的。然而,今天,情况有了变化。

压缩基本上是这样一个过程:通过梢除存在于视频信号里的冗余成分,来减少图象或图 象组的内容信息。

一般地讲,数字视频压缩是从分量视频表达开始的,此时信号是以一个亮度分量,两个色度 分量来表达的。最广为接受的数字分量视频格式就是Rccommendation601,该建议使用了“共 结点”模型的4:2:2采样结构。所谓“共结点”,是指每个彩色象素点由3个采样来 描述:一个亮度采样,两个色差形成的色度采样。因为这三个采样在时间上是重合的,所以 称作“共结点”。在525行的系统中,每帧有483个有效行,每行有720个象素点;在625 行的系统中,每帧有576个有效行。

通过色度--亮度采样的结合,在不损害图象质量的同时,减少所需带宽得以实现。4:2:2中 的“4”是指4倍于分量数字系统中采用的副载波采样频率。有趣的是,亮度采样频率实际 上是13.5MHZ:数字“4”的使用只是在考虑14.3MHZ NTSC采样频率是遗留下来的历史问题。13.5MH2的采样频率是——个折衷的选择,只是因为它相对525和625线的系统都有整数关系。 采样方式中的“2”是指色差信号Cb,Cr其采样频率刚好是亮度采样频率的一半(6.75mhz)。 人限亮度分辨能力的特点使得这种对分采样频率的方法能够使用:大范围的心理视觉测试己 证实,对于诸如色键等要求苛刻的后期制作类应用环境,6.75MHz的采样频率所能达到的色 度已经足够了。

压缩基本上是这样一个过程:通过消除存在于视频信号里的冗余成分,来减少图象或图象组 的内容信息。这可以通过分析视频信号的统计预知性来实现。信号的主要部分是有一定的可 预知性的。一个极端的例子是正弦波信号,它有高度的可预知性,因为每个周期都是相同的, 且只有一个颠率,这样就不需占用带宽。另一个极端的例子是,噪声信号完全不可预测。当 然,实际上所有的信号都界于这两者之间。压缩技术总的来说就是要识别并去除这些冗余, 从而减少存储量和所需带宽。

视额应用中对压缩,减少数据量或者数据传输率的要求可以归纳为以下两种基本要求:

1),在已存在的基础中加入新的功能。彩色电视就是一个好例宁。它面临的挑战就是将附加 信息(色彩)整合进已存在的黑白信号中。

2),经济利益。在通信领域,数据链接的花费通常是与数据传输串成正比的。因此,压缩系 数越高,花费就越低。同时,减少的存储花费构成了压缩技术经济上的另一个优势。

色度亚采样的进一步知识
对表示色度的色差信号进行亚采样经常用于减少数据密度,4:2:2是—个明显的例子.它充分利用了人眼对于亮度变化的敏感程度要强于色度变化这一特点。在减少带宽的努力中这已 经不是新核念了。它最初的应用要回顾到1950年代早期的NTSC和PAl复合信号标标准。在这 些复合信号标准体系中,两个色差倍号的分辨串带宽被减少到大约1MHz。类似的带宽降低 方法也被皮用到一些早期的数字效果单元上。这些设备使用4:1:1的采样格式,其中采样仍 是共结点的,但色差信号的采样频串只是亮度信号的四分之一。 垂直亚采样可以达到与4:1:1相同的降低色度数据密度的效果,这时的目标就是沿水平和垂 直方向把色度分辨串降低相同的数量。在4:2:0的采样中,来自一场中相临两条扫描线的色 度采样经内插处理,生成一个单独的色度采样,它在空间上位于原始采样之一和相反场中对 应扫描线上相应位置的正中。所谓对应扫描线是指,相反场中,在空间上位于当前场 中被采样的两条扫描线之间的那条扫细线。图3中的实心箭头搀出扫描线n和n+2的采样经 过内插处理生成了位于扫描线0和n+1之间的新采样。 ’ 4:2:0采样有许多的缺点。首先,由于使用隔行扫描已经损失了垂直分辨率,其次,色度采 样的垂直内插很复杂,还要求自适应滤波,达经常导致图象质量没有4:1:1的令人满意,多 代(multi-generation)性能不佳,最后,利用垂直亚采样在水乎和垂直两个方向上同等程 度地降低色度分辨串这一想法本身就有其根本性的缺陷:它并未考虑在水平和垂直两个方向 上采样密度的差异。表1总结了这些针对不同视频格式的采样密度,包括NTSC和PAL.

如果目的是最终使用诸如NTSC和PAL的复合信号标淮来传送信号,那么4:2:0是最糟 糕的可能选项。

显而易见,4:2:O并没有在两个方向上同等程度地降低色度分辨率.注意到水乎分辨率和垂 直分辨率3:1的比例就很容易得出这个结论。即使在引入4:3的长宽比之后,水平垂直分 辨串的比值仍是2.25:1。显然,4:1:1的采样结构更能够在两个方向上提供平衡的分辨率. 如果目的是最终使用诸如NTSC或PAL的复合信号标准来传送信号,那么4:2:0是最糟糕的 可能选项。它提供比NTSC或PAL都要高的水平分辨率,因此它提供的垂直色度分辨率比这 些复合信号标准所提供的要差得多。4:2:0的使用对水平和垂直色度分辨率都将造成损伤.

压缩过程

压缩基本上是这样一个过程:通过消除存在于视频信号里的冗余成分,来减少图象或图象组 的内容信息。概括地说,压缩技术就是试图识别冗余内容,再从比特流中除去大量的此类成 分。

用DCT识别冗余

对于许多压缩系统,第一步工作就是识别存在于视频信号的每帧每场中的空间冗余,这是通 过对整幅图象做DCT(离散余弦变换)来完成的。DCT是一个无损的,可逆的数学过程,它把 空间幅度数据转化为空间频率数据。在用于视频压缩时,这一运算过程是以亮度采样和相应 的色差采样构成的8*8点的块为单位进行的。(图4)左上角的DCT系数反映块的DC(直 流)分量,位于既分量下方的系数代表着逐渐增高的垂直空间领率,位于DC分量右侧的系 数代表看逐渐增高的水平空间频率,其他系数则代表垂直水平空间频串的不同组合。 由于视频图象的自然属性,DCT变换经常使代表较高空间频率的DCT系数的值很小。类似的, 由于人类视觉分辨串的特点,许多非零,代表较高空间频率的可以很粗糙地定义(也就是用 较少的比特来表达)或完全弃之不用,也不会引起明显的图象劣化。DCT变换并不能减少数 据量,事实上,为了达到可逆和无损,必须使用更多的有效比特(有效数字)来确保计算过 程中没有进位错误。

帧内压缩

实际的压缩是从减少空间冗余开始的,通过帧内压缩来实现。帧内压缩使用有损和无损过程 的组合来减少一幅图象的数据量。它并不使用来自过去或未来图象的任何信息。谓注意,这 里是故意使用“图象(picture)”这个词的。一些压缩技术,比如MPEG,允许把一场或一帧 作为基本图象。对于以场为单位的例子,场内编码将使每帧生成两幅“图象”。这就是在讨 论视频压缩时,为什么用“图象”而不用“帧”这个词的原因。

量化

MPEG比同等图象质量的Motion JPEG(运动JPEG)的压缩效率高出10-20%。

除了在4:2:2到4:2:0的转化过程中丢失了有限数量的信息以外,MPEG的压缩能力来自对DCT 系数灵活的量化过程。简单地讲,量化就是减少描述各系数的比特数的过程。 量化中可能会用多达11个比特来表示DC分量的系数,但用少得多的比特来表示较高阶的系 数.对于每个宏块(macroblock 16点*16点)或更大的宏块组,可以指定不同的量化间隔。 这种能够针对每个宏块使用不同量化因子的能力,使得只进行帧内处理的MPEG比同等图象 质量的Motion JPEG(运动JPEG)的压缩效率高出10-20%。一殷地讲,与传输原始的DCT 系数相比,传输表格或深度量化的系数只有少很多的数据量.

无损压缩
量化完成后,无损地减少数据量是通过VLC(可变长编码)RLC(游程编码)实现的。传送系 数的濒序优化了编码过程的效率:以锯齿状路线处理8点*8点的块中的64个系数,形成了 最大长度的连续零值,提高了压缩效率。可变长编码是这样一个过程,识别出数据中常见的 模式(或字),用较少的比特来描述较额繁出现的数值,用较多的字描述不常出现的数值。 摩尔斯码(MorseCode)就是一种形式的VLC,它用根短的序列表示常出现的字母,例如“e”(用一个点表示)。VLC的另一个例于是根流行的PC程序PKZIP,它使用了Lempel—ZiV— Welch(LZW)算法来压缩数据文件。象量化一样,VLC生成图形模式的码表,这种码表与拟定 的码字结合后的数据量,要比原始数据模式的少许多。RLC游程编码过程是用一个单独的码 字表示一种重复模式(例如连续的零值)。举例来说,一个由25个连续“0”构成的字串, 可以表示成:以字符“ESC”开始,然后是数值“25”(计数器),最后是值“0,,。这样,25bytes 的数据被压缩成3bytes。请注意,Vlc和RLC都是无损的编码过程。

可变比特率

码率控制决定了DCT系数量化过程的粗糙程度。输出缓冲器平滑了数据流的输出,提供了对 量化器的控制,来限制数据速率或将其保持在一定水平。尽管标准允许可变比特率,但仍有一些MPEG编码器提供一个恒定的比特串。在把压缩数据记录到视频磁带机里时就需要恒定 的比特率,因为录象机是利用机械部件如旋转磁头等以恒定速度工作的。另一方面,可变的 比特率对于在粹发情况下工作良好的磁盘记录介质是很理想的。一般说来,可变比特率对于 提供稳定的图象质量是个更好的选择。任何情况下,固定的数据速率都只是个概念而己一一 —一在过程中给定的扫描线之间,在给定的帧与顿之间,数据是变化的,DCT系数在变化,熵 编码也在变化。

消除时城冗余

视频信号的另一个届性是时域冗余,它是指对于一个给定的图象序列,图象内容在帧与帧之 间变化很小。对帧间相关图象内容的位置变化(或称运动)的计算是帧问压缩的主要组成部 分。(图6)运动颈测由两个过程:先把图象划分为若干16点*l6点的宏块(4个8点*8点 的块),然后搜索判定它在下一帧中的位置。虽然宏块的采样在一定程度上己发生变化,但 相关技术的应用使得位置匹配可以精确到半个象素点。成功的按索将为该宏块生成一个运动 矢量。

帧间压缩和运动补偿

帧间压缩基于末压缩的图象进行工作,基本上是无损的。在图7中,基淮帧堆栈中保存着满 分辨率的前一帧图象,拥有全部视频数据。而运动矢量从运动补偿块中被计算出来,用来预 溯当前帧图象.由于各帧图象可能有着不同种类的差异,而预测只能提供宏块的运动矢量, 所以预溯可能不是十分的精确。(后面将谈到预测的这点缺陷是无关紧要的) 预测帧堆栈存储着被预测的当前帧,这些内容是通过前一帧和运动矢量的信息来构造的。然 后从实际的当前帧中减去被预测的当前帧,其差异作为输出。如果没有运动和其他变化(考 虑一种权端情况,一帧图象重复出现),当前帧可以很精确地预测出来,并且差值输出应为 零(很容易压缩)。当两帧不完全相同时,帧问差异只包含很少的信息,容易被压缩。 请注意,图7展示了如何生成前向预测帧(P帧)和双向预测帧(B帧),后面将有更为详尽 的定义。重要的是,这种帧内压缩,帧问压缩方式的组合,已构成了基本的MPEG—2视频压 缩系统。(图8)预铡帧是从经过DCT量化,解码的图象得来的,这样能够得到更好的整体效果, 因为编码器重复了解码器的工作过程,这样就减弱了数学运算导致的负效应,例如舍位, 进位错误。

基准图象堆栈如何影响预测能力

只能处理P帧的编码器和对P帧B帧都能处理的编码器主要的差异就在于基准帧堆栈。前向 预测只要求存储最后一个基准帧,而双向预测要求存储最后一个基准帧和一个将来的基准帧。

 

 

(B)条件再补给

MPEG1编码算法所支持有一个基本特点是,如需要时(即与 前帧同一个宏模块相:比,宏模块内容已有变更时),可以在解码器 中更新宏模块的信息(条件宏模块再补给)在较低比特率要实行 规频序列的有效编码的关键,是选择合适的预测模式,以实现条件 再补给,MPEG标准主要区分有三种不同的宏模块编码类型(MB 类型): 跳跃MB:来自前帧的预测,运动矢量为零。根本无宏模块信息被进行编码,及被传送至接收机。 帧间MB:根据前帧,采用运动补偿预测。传送MB类型及MB 地址;如需要,也传送运动矢量、DCT系数及量化步长。 帧内MB:根本不采用来自前帧的预测(仅仅采用帧内预测) 仅仅向接收机传送MB类型、MB地址、DCT系数及量化步长

(C)特殊的存储媒体功能

为了从存储媒体中存取视频,MPEG1视频压缩算法设计成能 支持一些重要功能,如随机存取有及快进(FF)和快倒(FR)重 放等功能。考虑到对存储媒体的需求比及进一步探索运动补偿和运 动内描的优越性,由MPEGl引入B图像(双向预测测/双向内扫图 像)概念。这一概念示于图8,对象为视频序列中的一组连接图像。 图像有三种类型:帧内图像(I图像)编码时,不参照视频序列中 的其它图像,已在图4中介绍过,I图像允许存取点进行随机存取, 并对比特流进行FF/FR功能,不过只能进行低压缩。帧内预测图 像(P图像)编码时要参照挨差最近的前一个已编码的I图像或P 图像,通常采用运动补偿,以提高编码效率。由于通常用P图像作 为参照物来预测未来帧或过去帧,故P图像不提供用于随机存取或 编辑的合适的存取点。双向预测/内描的图像(B图像)备用过去帧 和未来帧作为参照物。为了实现高压缩,可以依据挨得最近的过 去、未来的P图像或I,图像,来实施运动补偿。B图像本身永不会 当作参照物来加以使用。 图8在MPEGl视频序列中所采用的I图像(I)、P图像(P) 和B图像(B),依据两个最近的已编码帧(I图像或P图像)采用 运动补偿预测,可以对B图像进行编码。为了适应不同应用的需 求,视频序列内图像编码类型的安排具有灵活性。图中指出了预测 的方向。 使用者在安排视频序列中的图像类型时具有很大的灵活性,以 适应各种不同应用的需求。作为总的原则,仅仅采用I图像(IIIIII.....)编码的视频序列,具有最好的随机存取、FF/FR和编辑功 能,但只能实现低压缩。已编码的,带有一个常规修正的I图像及 无B图像的序列(即IPPPPPPIPPP......),能实现中度压缩,具 有一定程度的随机存取及FF/FR功能。所有这三种图像类型的结 合,如图8中所示(1BBPBBPBBIBBP......),能做到高压缩,具有 较好的随机存取和FF/FR功能,但大大增加了编码延迟时间。这 一延迟也许在一些应用场合是不允许的,如视频电话、视频会议 .

(D)速率控制

MPEGl编码算法所支持的一个重要特点是,通过调节量化 DCT系数的量化器步长(sz)(见图5),为了满足特殊应用的要 求,可以调节比特率(因而也调节了再现视频信号的质量) DCT 系数的粗量化能对具有高的视频信号进行存储或传送,但会产生较 大的编码人工产物,这取决于量化等级 MPEGI标准允许编码器 为每一个已编码宏模块选择不同的量化器值——这样,可以对需要 改进画面质量的位置上分配比特,具有很大的灵活性。另外,还能 产生常量和变量比特率,用于压缩视频的存储或实时传送。 压缩的视频信息从实质上来讲本来就是可变的。通常是由连续 视频帧的变化的内容所引起的,必须对由编码器产生的可变比特流 缓冲于视频缓冲器中,如图5所示。进入到编码器VB的输入在时 间上是可变的,而输出是一个恒定比特流。在解码器,VB输入比 特流是恒定的,用于解码的输出是可变的 MPEG编码器和解码器 采用同样尺寸的缓冲器,以避免产生再现误差。 编码器中的速率控制算法,依据视频内容和活动程度,调节量 化器的步长(SZ),以保证视频缓冲器永不溢流——同时,应保持 缓冲器尽可能的满,以尽量提高画面质量。理论上讲,采用大的视 频缓冲器,可以避免缓冲器出现溢流现象。然而,除大型缓冲器价 格昂贵外,对于要求在编码器与解码器之间的延迟小的应用场合,大型缓冲器还存在另外一些缺点,如对话或视频的实时传送。如果 由于采用了视频缓冲器来产生一个恒定的比特率输出,编码器比特 流是平坦的,那么在编码处理跟在解码器视频再现时间之间就会引 入一个延迟。通常,缓冲器越大,所引入的延迟时间越长 MPEG已规定了最小的视频缓冲器的尺寸,它需要获得所有解 码器运作的支持。该数值等同于VB尺寸的最大值,编码器用它来 产生比特流。然而,为了减少延迟或编码器的复杂性,在编码器选 择一个虚拟缓冲器尺寸值是可能的,该值比需要得到解码器支持的 最小VB尺才要小。在发送视频比特流之前,先将该虚拟缓冲器尺 才值传送给解码器。 用于压缩视频的速率控制算法不属于MPEG—1标准,这就留 给实施者去开发有效的战略方法。应着重指出:制造厂商以指定比 特率去压缩视频所选择的速率控制算法的效率,对在解码器再现的 视频的可视质量有非常大的影响

(E)隔行视频源的编码

用于MPEG—1的标准化视频输人格式是非隔行制。然而,对 MPEG1来讲,隔行彩色电视(525行,29.97帧/每秒及625行, 25帧/秒)编码是一个重要的应用。基于隔行源到逐行中间格式的 转换,MPEGl已对Rec.601数字彩色电视信号的编码提出一个建 议。从本质上讲,只对每一个隔行视频输入帧中的一个水平二次取 样场进行编码,即二次取样顶(top)场。在接收机,根据已解码的 和水乎内插的奇数场,采预测偶数场,加以显示。在编码之前所必 须的预处理及编码之后所需的后处理,均在MPEGl国际标准文件 的信息附录中有详细叙述.

MPEG2标准:用于活动图像和伴音的 通用编码

世界范围的MPEGl正在开发一个重要的及成功的视频编码标 准,有关产品不断增多,并开始商品化。成功的关键因素在于标准 的通用结构,能支持广泛的应用及应用的特别参数。然而,在1991 年,MPEG继续它的标准化努力,进入第二阶段(MPEG—2),为 MPEG—l最初没有包括在内或尚未想到的应用,提供了一种视频 编码方法。特别是,已对MPEG—2提出一个要求,即它所提供的 视频质量,不能低于NTSC/PAL,最高应可达到CCIR601质量。 正在出现的一些应用,如数字有线电视分配、通过ATM的网络数 据库业务、数字VTR应用以及卫星和地面数字广播分配等,由于 新的MPEG—2标准化阶段结果提高了图像质量,均能从中受益。 已与ITU—TSGl5专家组(ATM视频编码专题)联合,开展了研 究工作。1994年,发布了MPEG—2的草案国际标准(与ITU—T H.262建议书相同)该标准的技术规格打算应具有通用性—所 以,该标准的目的在于,应有助于比特流在不同应用、传输和存储 媒体之间的互换。 从本质上说,MPEG—2可以视为是一组MPEG—1的最高级 编码标准,并设计或能向后跟MPEG—1相兼容—每一个MPEG —2兼容解码器能对有效的MPEG—1比特流进行解码。为了满足 多种不同应用的需求,许多视频编码算法被综合于单个句法之中。 为获得足够的性能和质量,MPEG—2已增添了新的编码特性,已 开发出来的预测模式,是为了支持隔行视频的有效编码。此外,还 引进了可分等级的视频编码扩展,以提供另外的功能,如数字电视 和HDTV的嵌入式编码,没出现传输误差时质量的缓慢降低。 然而,整个句法的实施,对于大部分应用来讲也许是不实际 的,MPEG—2已引进了“型”和“层”的概念,来规定设备之间 的一致性,并不支持整个句法的实施。型和层提供了定义句法子集 的方法,以及对特殊比特流进行解码所需的解码器功能。表2和表 3中表明了这种概念。 作为一般法规,每一个型定义一组新的算法,作为最高级组加在下一个型中的算法上。层规定了参数的范围,在实施中得到支持 (即画面尺寸、帧频和比特率)主型(MAINProfile)的MPEG—2 核心算法的特点是,对于逐行和隔行视频源均为非可分等级编码。 并希望:大部分MPEG—2实施过程至少应符合位于主层(MAIN LEvel)的主型,该主型支持数字视频的非可分等级编码,并拥有近 似的数字电视参数—最大的取样密度,每帧576行,每行720 个取样;最高的帧频30帧/秒;最高的比特率15Mb/s。

(A)MPEG—2非可分等级编码模式

在主型中所定义的MPEG—2算法,是MPEG—I编码方案的 直接扩展,以适应隔行视频的编码,同时保留了MPEG—1所提供 的所有功能。与MPEG—1标准一样,MPEG—2编码算法的基础 为通用的混合DCT/DPCM编码方案,如图5所示,并并入了宏模 块结构、运动补偿和编码模式,以便执行宏模块的条件再补给。图 8中所示的I图像、P图像和B图像的概念,在MPEG—2中全部保 留,以获得有效的运动颈测及有助于随机存取功能的实现。注意: MPEG—2单型(SIMPLEFrofile)中所定义的算法9基本上跟主型 中的算法相同,不一样的地方是,在编码器根本不存在B图像预测 模式。故B图像解码所需要的额外的实施复杂性和另外的帧存储 器,对于MPEG—2解码器来说不必要的,而只要求MPEG—2解 码器符合该单型就行。 场图像和帧图像:MPEG—2已介绍了帧图像和场图像的概念, 也介绍了特殊的帧预测和场预测模式,以适应逐行和隔行视频的编 码。对于隔行序列来讲,假设编码器输入是由一系列奇数(顶)场 和偶数(底)场所组成,而奇数场与偶数场在时间相隔—场的时 间。一帧中两场是分别编码的(场图像,见图9)在这种情况下, 每一场被分离成相邻的不重叠的宏模块,并对场进行DCT处理。 另一种方法是,将两场看成为一帧(帧图像),与一般的逐行视频 序列编码相类似,一起进行编码。在这里,顶场和底场的连续行就简单地汇合组成帧。注意:在单一的视频序列中,帧图像和场图像 均能被使用 图9场图像概念和可能的场预测举例。顶场和底场是分别编码 的。采用以那个前编码顶场为依据的运动补偿场间预测,来对每一 个底场进行编码。而顶场编码采用的是运动补偿场间预测,依据是 前编码顶场或者是前编码底场。这一概念可以加以延伸,以并入B 图像。 场和帧预测:MPEG—2已介绍了一些新的运动补偿场预测模 式,以便有效地对场图像和帧图像加以编码。图9中简单描述了这 种新概念的一个例子,这里出示的是一个隔行视频序列,只会有三 个场图像,不带B图像。在场预测中,是采用来自一个或多个前解 码场的数据,来对每一场单独进行预测的,也就是说,对于顶场来 说,测是根据一个前解码顶场(采用运动补偿预测)或属于同一 图像的前解码底场来获取的。一般来说,若场间根本没有运动时, 宁愿采用依赖于同一图像解码场的场间预测。采用哪一个参照场来 进行预测,这一信息随着比特流被发送出去。在场图像中,所有预测 均为场预测。 帧预测作出帧图像的预测,依据于一个或多个前解码帧。在帧 图像中,可以采用场预测,也可以采用帧预测;可以一个宏模块一 个宏模块地,来选择所喜爱的那种预测模式。 然而必须值得,颈测所依赖的那些场和帧,它们本身也许曾作 为场图像或者帧像,已完成了解码工序 MPEG—2已介绍了一些新的运动补偿模式,以便有效地探索 场间的时间冗长余度,名称叫做“双主”(Dual Prime)预测,运动补 偿基于16×8画面块。这些方法的讨论已超出本文的范畴。 色度格式:MPEG—2已规定了补充的Y:V:V亮度和色度二 次取样比率格式,以促进最高视频质量需求的应用。除了已得到 MPEG—1所支持4:2:0格式外,MPEG—2的规格已扩展至4:2:2格式,符合演播全视频编码应用的要求.

(B)MPEG—2可分等级编码的扩展

MPEG—2已对可分级性方法进行了标准化,这些方法所支持 的应用范围,已超出基本主型编码算法所支持的应用范围。可分级 编码的目的在于,在不同业务之间能提供互操作性,能较灵活地支 持具有不同显示功能的各种接收机。有的接收机既没有能力或者也 不要求再现视频的全部清晰度,那么就可以只对分层比特流的子集 进行解码,以较低的空间或时间清晰度,或者较低的质量,来显示 视频图像。可分级编码的另一个重要目的是可提供分层视频比特 流,它适合用于按优先顺序的传输。这里主要的难点在于,在出现 额道误差情况下,如基于ATM传输网络中单元的丢失,或地面数 字广播的同频道干扰,这时如何可靠地来传送视频信号。 能灵活地支持多种清晰度,这一功能对于DHTV跟标准清晰度 电视(SDTV)相互配合运作来讲十分重要,这里问题是HDTV接 收机应跟SDTV产品相兼容。对HDTV源进行了可分级编码,就 能实现这一兼容性,这就能避免很浪费地将两个单独的比特流分别 地传输给HDTV和SDTV接收机。可分级编码的其它一些重要应 用,包括视频数据库浏览以及在多媒体环境中视频的多清晰度重 放。 图10显示了多级视频编码方案的一般原理。这里提供了两层, 每一层支持着一个不同级上的视频,即将输入视频信号降级成为一 种较低清晰度视频(在空间上或时间上降低取样率),就能实现多 清晰度的显示。可对降低视频进行编码,进入基层比特流,这样也 降低了比特率。可用升级再现的基层视频(在空间上或时间上提高 取样率)来对原始输入视频信号加以预测。预测测误差经编码进入一 个增强层比特流。若接收机没能力或不需要显示视频信号的全部质 量,那就可以只对基层比特流加以解码,以再现降级的视频信号。 这里着重指出:如只对较低比特率的基层进行解码,那么最高清晰度视频的显示,质量也可能有所降低。对于每一层均分配有一个合 适比特率的视频,可以对其进行可分级编码,以满足传输频道或存 储媒体对带宽的特殊需求。这一功能被认为对于浏览视频数据库和 经不同网络的视频传输等业务是有用的。 在MPEG—2的标准化阶段,发现下面的想法是不可能实现的, 去开发一个通用的可分级编码方案,以适应已想到的所有各种应用 的需求。有些应用被限制于低的装置复杂性,另外一些要求非常高 的编码效率。结果是MPEG—2已对三种可分级编码方案进行了标 准化:SNR(质量)可量测性、空间可量测性及时间可量测性—— 每一种方案的目标在于有助于满足特殊应用的需求。这些可分级性 方法可将算法扩展到主型定义的非可分级方案。可以将不同的可分 级姓方法结合于一个混合编码方案之中,也就是说,将空间可分级 性和时间可分级性方法结合于一个混合层编码方案之中,这样,拥 有不同空间清晰度和帧频的各种业务之间的互操体性就能得到支 持。将空间可分级性与SNR可分级性相结合,就能够获得HDTV 与SDTV业务之间的互操作性,并对频道误差有一定的恢复功能 MPEG—2句法最多可支持三个不同的可分级层。 空间可分级性已经开发完成,以便在接收机显示不同的空间清 晰度—从基层能够再现空间清晰度较低的视频,这一功能对于许 多应用均是有用的,包括对HDTV/TV系统采用嵌入式编码,这样 就允许从数字TV业务向具有较高空间清晰度的HDTV业务过渡。 这一算法的依据是用于逐行扫描画面编码的一种标准锥形方法,空 间可分级性能够灵活的支持很宽范围的空间清晰度,但给主要编码 方案增添了很大的装置复杂性。 SNR可分级性:该方法已基本开发成功,对于按优先排列传输 媒体来说,SNR可分级性能使视频质量下降时比较缓慢(质量可分级性),如果基层能避免受到传输误差的影响,那么只要对基层信 号加以解码,就能获得质量衰减缓慢的视频。用来实现质量缓慢衰 减的算法,它基于一种频率(DCT域)可分级性技术。图11中的 两个层以同样的空间清晰度对视频信号加以图编码,11a和图llb 示出了SNR可分级性编码器和解码器可能的实施方法。该方法的 实施,也就是主型MPEG—2的一种简明的扩展,能够获得极佳的 编码效率。 在基层,DCT系数被低级量化和发送,以便在低比特率情况下 来获取适中的图像质量。非量化DCT系数跟来自基层、量化步长 较小的量化系数之间存在差值,而增强层就对这一差值进行编码, 加以发送。在解码器,通过对较低层和较高层比特流进行解码,就 能再现最高质量的视频信号。 利用这一方法,也可能在接收机中获取空间清晰度较低的视频 图像。如果解码器从基层比特流选用最低的N×N DCT系数,就可 用非标准反向DCT系数(尺寸为N×N)来再现空间清断度已降低 了的视频图像。然而,这个最低层已降级的视频易于发生漂移现 象,这取决于编码器和解码器的操作运行。 已开发的时间可分级性方法的目的跟空间可分级性的相类似 —具有一个适用于立体显示功能接收机的分层比特流,立体视频 就能得到支持。以由基层发送出来的、从对面观看到的编码图像为 依据,来预测增强层的立体视频的一个图像(左视图像),这样就 实现了分层工序。 当在ATM,地面广播或者磁记录环境中出现传输或频道误差 时,数据分配的作用在于促进误差隐蔽功能。由于这一做法完全可 以作为任一单层编码方案的后处理和预处理技术采用,它与MPEG —2的标准化工作尚未正式完成,但在MPEG—2DIS文件的信息 附录中,已注明了有关这一做法的资料来源。该算法依赖于DCT 系数的分离,跟SNR可分类性方法相类似,与其它可分级编码方 案相比较,这一算法实施起来较为简单。为了提供误差保护,比特 流中的已编码DCT系数,在带有不同误差的两个层中被分离和发送。  

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值