数字电视信号源编码的主要技术及标准

最新推荐文章于 2024-09-24 14:00:17 发布

aaaaatiger

最新推荐文章于 2024-09-24 14:00:17 发布

阅读量1.1w

点赞数

数字电视 IPTV DVB/ATSC demux smartcard otp CI plus CI+ 专栏收录该内容

87 篇文章

订阅专栏

【摘要】:本文介绍了有关数字电视信源编码的一些主要技术和标准,包括数字演播室标准ITU--601,压缩编码的基本原理和方法,图像压缩编码标准H261,JPEG和MPEG,以及作为数字电视信源编码标准输出的MPEG--2码流的形成。

　　准数字电视和数字高清晰度电视在内的数字电视体系的开发研究正加紧进行。美国已完成称为GA的数字高清晰度电视的标准制定及其进入实用的时间表，欧洲则在开发独立的数字电视方案，并制定了数字电视广播DVB的标准。这一切都是以数字电视信源编码的一系列技术与标准的成熟为基础的。信源编码作为数字电视系统的核心构成部分，直接决定了数字电视的基本格式及其信号编码效率，决定了数字电视最终如何在实际的系统中实现。

　　一.数字电视的信源编码

　　一个完整的数字电视系统包括数字电视信号的产生、处理、传输、接收和重现等诸多环节。数字电视信号在进入传输通道前的处理过程一般如图1所示：

500)this.style.width=500;" onclick=javascript：window.open(this.src); src="http://www.c114.net/technic/picture/110703.gif" οnlοad="javascript：if(this.width>500)this.style.width=500;">

　　电视信号在获取后经过的第一个处理环节就是信源编码。信源编码是通过压缩编码来去掉信号源中的冗余成分，以达到压缩码率和带宽，实现信号有效传输的目的。信道编码是通过按一定规则重新排列信号码元或加入辅助码的办法来防止码元在传输过程中出错，并进行检错和纠错，以保证信号的可*传输。信道编码后的基带信号经过调制，可送入各类通道中进行传输。目前数字电视可能的传输通道包括卫星，地面无线传输和有线传输等。

　　信源编码的目的是通过在编码过程中对原始信号冗余度的去除来压缩码率，因此压缩编码的技术与标准成为信源编码的核心。九十年代以来，各种压缩编码的国际标准相继推出，其中MPEG－2是专为数字电视《包括标准数字电视和数字高清晰度电视》制定的压缩编码标准。MPEG－2压缩编码输出的码流作为数字电视信源编码的标准输出码流已被广泛认可。目前数字电视系统中信源编码以外的其他部分，包括信道编码，调制器，解调器等，大都以MPEG－2码流作为与之适配的标准数字信号码流。

　　信源编码的第一步首先要对模拟电视信号进行取样和模数变换，相应的需要一个统一的标准。数字演播室标准ITU－R601正是为此制定的国际标准。

　　二.数字演播室标准ITU－R601

　　早在七十年代末，英国广播公司和索尼公司就分别展示了其各自开发的彩色数字录像机，成为最早的数字电视编录产品，由此促成了电视信号模数转换规范的产生。1980年，国际无线电咨询委员会CCIR提出了电视信号模数转换标准的建议，即称为数字演播室标准的CCIR601。后来CCIR成为国际电信联盟的无线电委员会，称为ITU－R，相应的CCIR－601也改称ITU－R601，成为模拟电视向数字电视转变过程中的第一个标准规范，其分量编码标准如表1所示。

　　表 1 ITU－R601数字演播室分量编码标准《4：2：2》

参数电视制式 PAL NTSC

每行取样数亮度信号每个色差信号

864 858 432 429

取样结构正交取样，色差信号与亮度信号的奇次样值同位

取样频率亮度信号每个色差信号

13.5兆赫 6.75兆赫

编码方式亮度和色差信号均采用线性PCM，8比特量化

每数字有效行取样数亮度信号每个色差信号 720 360

量化级数亮度信号每个色差信号

220 224

　　参数说明：

　　1.取样频率：根据奈奎斯特定理，取样频率应至少不低于信号最高频率的2倍。其次，为便于进行信源编码，取样结构最好为正交结构，即每个取样点应与其相邻行和相邻帧对齐。为此取样频率必须为行频的整数倍。要同时满足PAL与NTSC的正交取样，取样频率应为两者行频的公倍数。同时，取样频率的选取还必须兼顾码率和带宽。综合考虑上述因素，亮度信号的取样频率定为13.5兆赫。在4：2：2格式中，每个色差信号取样数为亮度信号的一半，取样频率定为6.75兆赫；

　　2.每行取样数：由取样频率除以行频得到每行取样数。为提高编码效率，去掉行场逆程的取样，得到降低了的每数字有效行取样数；

　　3.编码方式：采用简单的线性PCM编码。量化比特数为8比特，这是一个由实验决定的结果。具体实验显示，8比特量化产生的256级量化级，已完全能满足人眼对亮度与色度层次分辨的需要。

　　ITU－R601主要是一种取样标准。模拟电视信号据此取样后进行8比特量化和线性PCM编码，即可得到符合数字演播室标准的基带数字信号。但是，由此得到的数字电视信号具有非常高的码率和带宽，难以进入实用。虽然ITU－R601建议早在1980年已经制定，但直到九十年代一系列有效的图像数码压缩技术及相应的国际标准出现以后，数字电视才得到了迅速的发展。

　　图像数据的压缩主要基于对各种图像数据冗余度及视觉冗余度的压缩，包括如下一些方法：

　　1.统计冗余度的压缩：对于一串由许多数值构成的数据来说，如果其中某些值经常出现，而另外一些值很少出现，则这种由取值上的统计不均匀性就构成了统计冗余度，可以对之进行压缩。具体方法是对那些经常出现的值用短的码组来表示，对不经常出现的值用长的码组来表示，因而最终用于表示这一串数据的总的码位，相对于用定长码组来表示的码位而言得到了降低，这就是熵编码的思想。目前用于图像压缩的具体的熵编码方法主要是霍夫曼编码，即一个数值的编码长度与此数值出现的概率尽可能地成反比。霍夫曼编码虽然压缩比不高，约为1.6：1，但好处是无损压缩，目前在图像压缩编码中被广泛采用。

　　视频图像在每一点的取值上具有任意性。对于运动图像而言，每一点在一段时间内能取可能的任意值，在取值上具有统计均匀性，难以直接运用熵编码的方法，但可以通过适当的变换编码的方法，如DCT变换，使原图像变成由一串统计不均匀的数据来表示，从而利用霍夫曼编码来进行压缩。

　　2.空间冗余度的压缩：一幅视频图像相邻各点的取值往往相近或相同，具有空间相关性，这就是空间冗余度。图像的空间相关性表示相邻象素点取值变化缓慢。从频域的观点看，意味着图像信号的能量主要集中在低频附近，高频信号的能量随频率的增加而迅速衰减。通过频域变换，可以将原图像信号用直流分量及少数低频交流分量的系数来表示，这就是变换编码中的正交余弦变换DCT的方法。DCT是JPEG和MPEG压缩编码的基础，可对图像的空间冗余度进行有效的压缩。

　　视频图像中经常出现一连串连续的象素点具有相同值的情况，典型的如彩条，彩场信号等。只传送起始象素点的值及随后取相同值的象素点的个数，也能有效地压缩码率，这就是行游程编码。目前在图像压缩编码中，行游程编码并不直接对图像数据进行编码，主要用于对量化后的DCT系数进行编码。

　　3.时间冗余度的压缩：时间冗余度表现在电视画面中相继各帧对应象素点的值往往相近或相同，具有时间相关性。在知道了一个象素点的值后，利用此象素点的值及其与后一象素点的值的差值就可求出后一象素点的值。因此，不传送象素点本身的值而传送其与前一帧对应象素点的差值，也能有效地压缩码率，这就是差分编码DPCM。在实际的压缩编码中，DPCM主要用于各图像子块在DCT变换后的直流系数的传送。相对于交流系数而言，DCT直流系数的值很大，而相继各帧对应子块的DCT直流系数的值一般比较接近，在图像未发生跳变的情况下，其差值同直流系数本身的值相比是很小的。

　　由差分编码进一步发展起来的预测编码，是根据一定的规则先预测出下一个象素点或图像子块的值，然后将此预测值与实际值的差值传送给接收端。目前图像压缩中的预测编码主要用于帧间压缩编码，方法是先根据一个子块的运动矢量求出下一帧对应子块的预测值及其与实际值的差值，接收端根据运动矢量及差值恢复出原图像。由于运动矢量及差值的数据量低于原图像的数据量，因而也能达到图像数据压缩的目的。

　　4.视觉冗余度的压缩：视觉冗余度是相对于人眼的视觉特性而言的。人眼对于图像的视觉特性包括：对亮度信号比对色度信号敏感，对低频信号比对高频信号敏感，对静止图像比对运动图像敏感，以及对图像水平线条和垂直线条比对斜线敏感等。因此，包含在色度信号，图像高频信号和运动图像中的一些数据并不能对增加图像相对于人眼的清晰度作出贡献，而被认为是多余的，这就是视觉冗余度。

　　压缩视觉冗余度的核心思想是去掉那些相对人眼而言是看不到的或可有可无的图像数据。对视觉冗余度的压缩通常已反映在各种具体的压缩编码过程中。如对于DCT系数的直流与低频部分采取细量化，而对高频部分采取粗量化，使得DCT变换能借此压缩码率，并能有效地进行行游程编码。在帧间预测编码中，大码率压缩的预测帧及双向预测帧的采用，也是利用了人眼对运动图像细节不敏感的特性。

　　图像压缩编码的具体方法虽然还有多种，但大都是建立在上述基本思想之上的。DCT变换，行游程编码，DPCM，帧间预测编码及霍夫曼编码等编码方法，因技术上的成熟，已被有关国际组织定为压缩编码的主要方法。

　　四.图像压缩的主要技术与标准

　　目前有关图像压缩方面的主要标准包括CCITT的H.261,JPEG和MPEG。是分别针对电视电话图像，静止图像和活动图像的压缩编码标准。这几种压缩标准虽然各自针对性不同，但压缩编码方法大体相似。

　　1.H261

　　图像压缩编码标准的提出最早源于通讯中对可视电话的研究。经过多年努力，至1980年，国际电报电话咨询委员会CCITT所属的视频编码专家组的H.261建议被通过，成为可视电话和电话会议的国际标准。H.261又称Px64，传输码率为Px64kbps，其中P＝1－30可变，根据图像传输清晰度的不同，码率变化范围在64kbps至1.92Mbps之间，编码方法包括DCT变换，可控步长线性量化，变长编码及预测编码等。其简化的编码原理框图如图2所示。

500)this.style.width=500;" onclick=javascript：window.open(this.src); src="http://www.c114.net/technic/picture/110704.gif" οnlοad="javascript：if(this.width>500)this.style.width=500;">

　　图中，DCT变换的输入输出选择开关由帧内/帧间模式选择电路控制。在帧内模式时，开关打到上面，输入信号经DCT变换，线性量化和变长编码后输出，图像只进行帧内压缩。在帧间模式时，开关打到下面，前一帧图像信号经过预测环中的运动补偿后产生一个后帧的预测信号。后帧的实际输入信号与其预测值相减后，在进行一个帧内压缩编码的过程后输出。

　　图中变长编码器产生的控制信号送量化器以控制其量化步长。当变长编码器的输入中连续出现许多大数值的数据，导致集中出现长的码组，使缓存器接近溢出时，控制信号使量化器的量化步长加大，以降低大数值数据的出现；反之，也可控制量化器以减小其量化步长。在预测环路中由于存在用于恢复前帧信号的反量化器，量化步长控制信号也要送到预测环中的反量化器中。

　　H.261所针对的可视电话信号最初考虑是在一般电话网中传输的，带宽和码率是其考虑的核心问题。其每帧取样点数比ITU－R601所规定的低许多，且采取抽帧传输的方法，无法满足数字电视压缩编码的要求，但H.261是此前压缩编码数十年研究的结果，成为以后JPEG和MPEG编码方法的重要基础。

　　2.JPEG

　　1986年，国际标准化组织ISO和国际电报电话咨询委员会CCITT共同成立了联合图像专家组《Joint Photographic Experts Group》，对静止图像压缩编码的标准进行了研究，JPEG小组于1988年提出建议书，1992年成为静止图像压缩编码的国际标准。JPEG是一个达到数字演播室标准的图像压缩编码标准，其亮度信号与色度信号均按照ITU－R601的规定取样后划分为8x8子块进行编码处理。

　　JPEG是一种不含帧间压缩的帧内压缩编码方法，其主要编码过程与H.261的帧内编码过程大致相同。输入信号经DCT变换后，按固定的亮度与色度量化矩阵进行非线性量化。对量化后的DCT直流系数进行差分编码，交流系数进行行游程编码，再按霍夫曼码表进行变长编码后，送缓存器输出。

　　JPEG不含帧间压缩，压缩比较帧内/帧间压缩低。但因为不含帧间压缩，使得各帧在压缩编码后是各自独立的，这一点对于编辑来说是有利的，可以做到精确到逐帧的编辑。所以对于活动画面只进行帧内压缩的Motion-JPEG，目前仍然在一些数字电视编录设备，如非线性编辑系统中得到应用。

　　3.MPEG

　　1988年，国际标准化组织ISO和国际电工委员会IEC共同组建了运动图像专家组《Moving Picture Experts Group》，对运动图像的压缩编码标准进行了研究。1992年和1994年分别通过了MPEG－1和MPEG－2压缩编码标准。

　　MPEG－1主要是针对运动图像和声音在数字存储时的压缩编码，典型应用如VCD等家用数字音像产品，其编码最高码率为1.5Mbps。MPEG－2则针对数字电视的视音频压缩编码，对数字电视各种等级的压缩编码方案及图像编码中划分的层次作了详细的规定，其编码码率可从3Mbps到100Mbps。

　　MPEG的基本编码过程与H.261相似，即通过DCT进行帧间压缩。除了在编码语法上加进了一些特别规定外，与H.261的一个重要不同是MPEG在预测编码中加进了一个双向预测帧B帧，如图3所示。

500)this.style.width=500;" onclick=javascript：window.open(this.src); src="http://www.c114.net/technic/picture/110705.gif" οnlοad="javascript：if(this.width>500)this.style.width=500;">

　　图中，I帧只进行帧内压缩，是作为预测基准的独立帧，具有较小的压缩比。由I帧前向预测产生的P帧具有中等压缩比，并与I帧一起成为B帧的预测基准。由此产生的B帧则具有最高的压缩比。I帧出现的频率及I，B，P帧之间如何组合，MPEG未作具体规定，可由编码器自行选择。如索尼的数字Betacom录像机，为便于精确地编辑，在压缩编码过程中抽掉了B帧，只有I帧与P帧的组合。

　　在上述各种图像压缩编码标准中，MPEG－2是专门针对数字电视的。MPEG－2的压缩编码及其标准码流的形成构成了数字电视信源编码的核心。

　　五.MPEG－2标准码流的形成

　　符合MPEG－2格式的码流成为数字电视信源编码的标准输出码流。数字电视信道编码，DVB及MPEG－2解码器等均认同和适应此标准。为了形成统一标准的MPEG－2输出码流，MPEG－2对其压缩编码的适用范围和编码语法，对码流的打包与复用等作了详细具体的规定。

　　1.MPEG－2的类和级

　　在对数字电视信号进行压缩编码时，MPEG－2可采用多种编码工具并实现不同层次的清晰度，分别称为MPEG－2的类《Profile》和级《Level》，具体分为五类四级。

　　图像清晰度由LOW到HIGH逐级提高，使用的编码工具从SIMPLE到HIGH依次递增。20个可能的组合中有11个已获通过，称为MPEG－2 适用点，其中主类主级MP@ML适用于标准数字电视，主类高级MP@HL则用于高清晰度电视。

　　2.MPEG－2的层

　　MPEG－2根据图像块和图像帧的不同组合划分为六层。MPEG－2的层直接决定了编码码流的形成和结构。MPEG－2的层从下至上依次为：

　　象块层:由8x8个象素点构成的DCT变换基本单元；

　　宏块层:在4：2：2取样中，一个宏块由4个亮度象块，2个Cr象块和2个Cb 象块构成。另外还有4：2：0取样和4：4：4取样的两种宏块；

　　像条层:一连串宏块可构成一个像条；

　　图像层:一系列像条可以构成一幅图像，图像分为I，B，P三类；

　　图像组层:由相互间相关的一组I，B，P帧组成，I帧为第一帧；

　　视频序列层:一系列图像组构成了一个视频序列；

　　从象块开始从下至上依次编码，并在除象块和宏块外的每一层的开始处加上起始码和头标志，就形成了MPEG－2基本码流（Elementary Stream〕。

　　3.MPEG－2基本码流的打包与复用

　　分别从MPEG－2编码器中输出的视频，音频和数据基本码流无法直接送信道传输，需要经过打包和复用，形成适合传输的单一的MPEG－2传输码流。

　　视频，音频及数据基本码流ES先被打成一系列不等长的PES小包，称为打包的基本码流。每个PES小包带有一个包头，内含小包的种类，长度及其他相关信息。视频，音频及数据的PES小包，按照共同的时间基准，经节目复用后形成单一的节目码流。多路节目码流经传输复用后形成由定长传输小包组成的单一的传输码流，成为MPEG－2信源编码的最终输出信号

　　在数字化电视信号的信源编码中，根据对图像清晰度的不同要求及其他方面的考虑，可分别采用JPEG、MPEG-1和MPEG-2作为编码方法。其中，MPEG-2由于专门针对数字电视的信源编码制定了一系列的语法和规范并被广泛认可，已成为数字电视广播信源编码的核心技术与标准。

H.264

H.264/AVC 是ITU-T VCEG 和ISO/IEC MPEG共同开发的视频处理标准，ITU-T作为标准建议H.264，ISO/IEC作为国际标准14496-10（MPEG-4 第10部分）高级视频编码（AVC）。

MPEG-2视频编码标准（又称为ITU-T H.262[2]）已有10年的历史了，由MPEG-1扩充而来，支持隔行扫描。使用十分广泛，几乎用于所有的数字电视系统，适合标清和高清电视，适合各种媒体传输，包括卫星、有线、地面等，都能有效地传输。然而，类似xDSL、UMTS（通用移动系统）技术只能提供较小的传输速率，甚至DVB-T，也没有足够的频段可用，提供的节目很有限，随着高清电视的引入，迫切需要高压缩比技术的出现。

应用于电信的视频编码经历了ITUT H.261、H.262（MPEG-2）、H.263、H.263+、H.263++，提供的服务从ISDN和T1/E1到PSTN、移动无线网和LAN/INTERNET网。

最近MPEG-4第二部分进入了实用领域，提供了视频形状编码，目标是与MPEG-2一样获得广泛的数字电视应用。

1998年，视频编码专家组（VCEG-ITU-T SG16Q.6）启动了H.26L工程，旨在研制出新的压缩标准，与以前的任何标准相比，效率要提高一倍，同时具有简单、直观的视频编码技术，网络友好的视频描述，适合交互和非交互式应用（广播、存储、流煤体）。

2001年12月，VCEG和运动图像专家组（MPEG-ISO/IEC JTC 1/SC 29/WG 11）组成了联合视频组（JVT，Joint Video Team），研究新的编码标准H.264/AVC，该标准于2003年3月正式获得批准。

视频的各种应用必须通过各种网络传送，这要求一个好的视频方案能处理各种应用和网络接口。H.264/AVC为了解决这个问题，提供了很多灵活性和客户化特性。H.264/AVC的设计方案包含两个层次，视频编码层（VCL，Video Coding Layer）和网络抽象层（NAL，Network Abstraction Layer）。视频编码层主要致力于有效地表示视频内容，网络抽象层格式化VCL视频表示，提供头部信息，适合多种传输和存储媒体。

VCL的设计同以前的ITU-T和 ISO/IEC JTC一样，基于块的混合视频编码方法。基本的源编码算法是：利用时间统计的相关性，开发帧间预测算法；利用预测残留变换编码，开发空间统计的相关性。在提高编码效率方面，没有一个单一的算法做出特别的贡献，而是大量的小的改善算法综合产生的结果。

一、主要特性

1、H.264/AVC相对以前的编码方法，以MPEG-2为例，在图像内容预测方面提高编码效率，改善图像质量的主要特点如下：

● 可变块大小运动补偿：选择运动补偿大小和形状比以前的标准更灵活，最小的亮度运动补偿块可以小到4×4。

●1/4采样精度运动补偿：以前的标准最多1/2精度运动补偿，首次1/4采样精度运动补偿出现在MPEG-4第二部分高级类部分，但H.264/AVC大大减少了内插处理的复杂度。

●运动矢量可跨越图像边界：在以前的标准中，运动矢量限制在已编码参考图像的内部。图像边界外推法作为可选技术首次出现在H.263中。

●多参考图像运动补偿：在MPEG-2及以前的标准中，P帧只使用一帧，B帧只使用两帧图像进行预测。H.264/AVC使用高级图像选择技术，可以用以前已编码过且保留在缓冲区的大量的图像进行预测，大大提高了编码效率。

●消除参考图像顺序和显示图像顺序的相关性：在以前的标准中，参考图像顺序依赖显示图像顺序，H.264/AVC消除了该限制，可以任意选择。

● 消除参考图像与图像表示方法的限制：在以前的标准中，B帧图像不能作为预测图像，H.264/AVC在很多情况可以利用B帧图像作为参考。

● 加权预测：H.264/AVC采用新技术，允许加权运动补偿预测和偏移一定量。在淡入淡出场景中该技术极大提高编码效率，该技术还可用于其他多种用途。

● 改善“跳过”和“直接”运动推测：在以前的标准中，预测编码图像的“跳过”区不能有运动。当编码有全局运动的图像时，该限制非常有害。H.264/AVC对“跳过”区的运动采用推测方法。对双预测的B帧图像，采用高级运动预测方法，称为“直接”运动补偿，进一步改善编码效率。

● 帧内编码直接空间预测：将编码图像边沿进行外推应用到当前帧内编码图像的预测。

● 循环去块效应滤波器：基于块的视频编码在图像中存在块效应，主要来源于预测和残余编码。自适应去块效应滤波技术是非常著名的技术，能有效消除块效应，改善视频的主观和客观质量。

2、除改善预测方法外，其他改善编码效率的特性如下：

● 小块变换：以前的标准变换的块都是8×8，H.264/AVC主要使用4×4块变换，使编码器表示信号局部适应性更好，更适合预测编码，减少“铃”效应。另外图像边界需要小块变换。

● 分级块变换：H.264/AVC通常使用小块变换，但有些信号包含足够的相关性，要求以大块表示，H.264/AVC有两种方式实现。低频色度信号可用8×8，；对帧内编码，可使用特别的编码类型，低频亮度信号可用16×16块。

● 短字长变换：所有以前标准使用的变换要求32位运算，H.264/AVC只使用16位运算。

● 完全匹配反变换：所有以前标准反变换和变换之间存在一定容限的误差，因此，每个解码器输出视频信号都不相同，产生小的漂移，最终影响图像的质量，H.264/AVC实现了完全匹配。

● 基于上下文的熵编码：H.264/AVC使用两种熵编码方法，CAVLC（上下文自适应的可变长编码）和CABAC（上下文自适应二进制算术编码），两种都是基于上下文的熵编码技术。

3、H.264/AVC具有强大的纠错功能和各种网络环境操作灵活性，主要特性如下：

● 参数集结构：H.264/AVC参数集结构设计了强大、有效的传输头部信息。在以前的标准中，如果少数几位关键信息丢失，可能解码器产生严重解码错误。H.264/AVC采用很灵活、特殊的方式，分开处理关键信息，能在各种环境下可*传送。

● NAL单元语法结构：H.264/AVC中的每一个语法结构放置在称为NAL的单元中，以前的标准采用强制性特定的位流接口。NAL单元语法结构允许很自由的客户化，几乎适合所有的网络接口。

● 灵活的像条大小：在MPEG-2中，规定了严格的像条结构，头部数据量大，降低预测效率，编码效率低。在H.264/AVC可采用非常灵活的像条大小。

● 灵活宏块排序（FMO）：H.264/AVC可以将图像划分为像条组，又称为图像区，每个像条可以独立解码。FMO通过管理图像区之间的关系，具有很强的抗数据丢失能力。

● 任意像条排序：因为每个像条几乎可以独立解码，所以像条可以按任意顺序发送和接收，在实时应用中，可以改善端到端的延时特性，特别适合于接收顺序和发送顺序不能对应的网络中，如使用INTERNET网络协议的应用。

● 冗余图像：为提高抗数据丢失的能力，H.264/AVC设计中包含一种新的能力，允许编码器发送图像区的冗余表示，当图像区的主表示丢失时仍可以正确解码。

● 数据划分：视频流中的编码信息的重要性不同，有些信息（如运动矢量、预测信息等）比其他信息更为重要。H.264/AVC可以根据每个像条语法元素的范畴，将像条语法划分为3部分，分开传送。

二、网络层

NAL规范视频数据的格式，主要是提供头部信息，以适合各种媒体的传输和存储。NAL支持各种网络，包括：

● 任何使用RTP/IP协议的实时有线和无线Internet 服务。

● 作为MP4文件存储和多媒体信息文件服务。

● MPEG-2系统。

● 其他网。

1、NAL 单元

编码的视频流组织成NAL单元，视频数据放置在网络单元中传输，每个网络单元包含整数个字节，第一个字节是头部信息，指示NAL单元的数据类型，其余是净荷。

净荷数据与仿真预防字节做交织处理，仿真预防字节是特殊值字节，防止偶然在净荷中出现同步字节图样。

NAL规定一种通用的格式，既适合面向包传输，也适合流传送。实际上，包传输和流传输的方式是相同的，不同之处是流传输前面增加了一个起始码前缀。

2、NAL单元在字节流中的应用

类似H.320和MPEG-2/H.222.0等传输系统，传输NAL作为有序连续字节或比特流，同时要依*数据本身识别NAL单元边界。在这样的应用系统中，H.264/AVC规范定义了字节流格式，每个NAL单元前面增加3个字节的前缀，即同步字节。在比特流应用中，每个图像需要增加一个附加字节作为边界定位。还有一种可选特性，在字节流中增加附加数据，用做扩充发送数据量，能实现快速边界定位，恢复同步。

3、NAL单元在面向包传送中的应用

在类似Internet/RTP面向包传送协议系统中，包结构中包含包边界识别字节，在这种情况下，不需要同步字节。

4、VCL和非VCL的NAL单元

NAL单元分为VCL和非VCL两种，VCL NAL单元包含视频图像采样信息，非VCL包含各种有关的附加信息，例如参数集（头部信息，应用到大量的VCL NAL单元）、提高性能的附加信息、定时信息等。

5、参数集

参数集是很少变化的信息，用于大量VCL NAL单元的解码，分为两种类型：

● 序列参数集，作用于一串连续的视频图像，即视频序列。

● 图像参数集，作用于视频序列中的一个或多个个别的图像。

序列和图像参数集机制，减少了重复参数的传送，每个VCL NAL单元包含一个标识，指向有关的图像参数集，每个图像参数集包含一个标识，指向有关的序列参数集的内容，因此，只用少数的指针信息，引用大量的参数，大大减少每个VCL NAL单元重复传送的信息。

序列和图像参数集可以在发送VCL NAL单元以前发送，并且重复传送，大大提高纠错能力。序列和图像参数集可以在“带内”，也可以用更为可*的其他“带外”通道传送。

6、存储单元

一组指定格式的NAL单元称为存储单元，每个存储单元对应一个图像。每个存储单元包含一组VCL NAL单元，组成一个主编码图像，VCL NAL单元由表示视频图像采样的像条所组成。存储单元前面可以加一个前缀，分界存储单元，附加增强信息（SEI）（如图像定时信息）也可以放在主编码图像的前面。

主编码图像后附加的VCL NAL单元，包含同一图像的冗余表示，称为冗余编码图像，当主编码图像数据丢失或损坏时，可用冗余编码图像解码。

7、编码视频序列

一个编码视频序列由一串连续的存储单元组成，使用同一序列参数集。每个视频序列可独立解码。编码序列的开始是即时刷新存储单元（IDR）。IDR是一个I帧图像，表示后面的图像不用参考以前的图像。一个NAL单元流可包含一个或更多的编码视频序列。

三、视频编码层

视频编码层在原理上与MPEG2是一致的，采用变换编码，使用空间和时间预测的混合编码。图1是一个宏块的视频编码层的框图。总之图像划分成块，一个序列的第一个图像，即随机存取点，典型是帧内编码，帧内每个采样的预测只利用帧内已编码的空间相邻的采样，选择哪些相邻采样进行预测，以及如何预测，这些附加信息必须同时被传送到解码器同步处理。随机存取点之间的图像使用帧间编码。

为了实现下一块或下一个图像的预测，编码器包含一个解码器，对量化变换系数进行与解码器解码相同的反量化和反变换过程，导出解码预测残余，解码残余与预测相加，结果送到去块效应滤波器，产生解码视频输出。

1、图像、帧和场

一个编码视频序列由连续的编码图像组成，编码图像可以是整个一帧图像，也可以是一场图像。H.264/AVC编码是基于几何概念的表示方法，而不是基于定时的概念。

2、YcbCr色度空间和4:2:0采样

人的视觉特性按照亮度和色度信息分别感知世界。视频的传输可以利用该特性减少色度信息传送。H.264/AVC目前采用与MPEG-2主类相同的4:2:0采样结构、8比特精度，高精度颜色和高比特精度的建议正在讨论中。

3、宏块划分

每个视频图像帧或场都可以划分为固定大小的宏块，宏块是解码的基本模块单元，通常是一个16×16亮度像素和两个8×8彩色分量像素的长方型区域。所有宏块的亮度和色度采样在空间或时间上进行预测，对预测残余进行变换编码。

4、像条和像条组

像条由宏块组成，像条是图像的子集，包含图像参数集，语法元素可以被分析，图像可以被独立解码。按照宏块映射表规定的顺序，在位流中安排宏块的传输顺序，而不是按光栅扫描顺序。

利用像条组的概念，H.264/AVC支持灵活宏块排序特性（FMO）。FMO改变了图像划分为像条和宏块的方式。每个像条组是多个宏块集合，通过宏块到像条组的影射表定义，该影射表在图像参数集中指定。每个宏块有一个像条组标识号，所有像条组标识号构成宏块到像条组影射表。每个像条组由一个或多个像条组成，因此像条是一个宏块序列，同一像条组中的宏块，按光栅顺序处理。

利用FMO，图像可以划分为许多宏块扫描图样，例如交织图样、点缀图样，一个或多个前景像条组、剩余像条组，或棋盘型图样影射等。每个像条组分别传送，后两种如图2所示，左边宏块到像条组的影射证明在关注局部型的编码应用中非常有用。右边宏块到像条组的影射证明适合保密型会议系统等应用。

无论是否使用FMO，H.264/AVC支持5种像条编码类型：

I像条：最简单的编码类型，所有的宏块不参考视频序列中其他的图像。

P像条：除了I像条编码类型外，P像条的部分宏块可以利用帧间预测，每个预测块至多可使用一个运动补偿预测信号。

B像条：除了P像条编码类型外，B像条的部分宏块可以利用帧间预测，每个预测块可使用两个运动补偿预测信号。

以上三种与以前的标准相似，主要是参考图像不同，其余两种像条类型是SP（切换P）SI（切换I），是新的类型，用于在不同位率编码码流之间进行有效切换。

SP像条：称作切换P像条，能在不同编码图像之间有效地切换。

SI像条：称作切换I像条，允许SP像条的宏块完全匹配，达到随机读取数据进行解码和恢复错误的目的。

5. 宏块的编解码过程

所有宏块的亮度和色度采样要进行空间或时间的预测，对预测的残余进行变换编码，为了实现变换编码，每个颜色分量的预测残余要再划分为更小的4×4块，每块利用整数变换，变换系数被量化，最后是熵编码。

如图1所示，一个宏块视频编码层的方框图，输入的视频信号划分为宏块，映射宏块和像条组的关系，逐个选择像条，处理像条中每个宏块。

6、自适应帧/场编码操作

在隔行扫描帧中，当有移动的对象或摄像机移动时，与逐行相比，两个相邻行倾向减少统计的相关性，这种情况应比每场分别压缩更为有效。为了达到高效率，H.264/AVC在编码帧时，有以下可选方案：

● 结合两场成一个完整帧，作为帧编码，称为帧模式。

● 两场分别编码，称为场模式。

● 结合两场成一个完整帧，作为帧压缩。在编码时，划分垂直相邻的两个宏块对成两个场宏块对或帧宏块，再进行编码。

每帧图像可自适应选择3种模式之一进行编码。在前两种之间进行选择称为图像自适应帧/场编码（PAFF），当一帧作为两场编码时，每场划分为宏块，编码方式与帧编码方式很相似，主要有下面的例外：

● 运动补偿用参考场，而不是参考帧。

● 变换系数的“之字型”扫描方式不同。

● 宏块水平边沿去块滤波器的强度不选用“强”，因为场行在空间上是两倍帧行的距离。

在研制H.264/AVC标准时，据报道，采用ITU-601分辨率，PAFF编码技术与帧编码相比可减少码率16%到20%。

如果图像由运动区和非运动区混合组成，非运动区用帧模式、运动区用场模式是最有效的编码方法。因此每个垂直宏块对（16×32）可独立选择编码（帧/场）模式。这种编码选择称为宏块自适应帧/场编码（MBAFF）。对于帧模式宏块对，每个宏块包含帧行，对于场模式宏块对，顶部宏块包含顶场行，底部宏块包含底场行。

处理场宏块对的每个宏块与帧PAFF模式相似，然而，因为在MBAFF帧中发生场/帧宏块对混合，需要修改用作下列用途的方法：

● 之字型扫描。

● 运动矢量预测。

● 帧内预测模式的预测。

● 帧内预测帧采样精度。

● 去块效应滤波器。

● 上下文模型的熵编码。

主要思想是尽可能保留多的空间一致性，MBAFF帧的空间相邻的规范相当复杂，下面讲到的空间相邻都是指非MBAFF帧。

MBAFF 和PAFF的另一个重要区别是：使用MBAFF方法，一个场不能使用同一帧的另一个场中的宏块作为运动补偿参考。这样，有时PAFF比MBAFF编码更有效，特别是在快速全局运动、变换场景、图像刷新等情况下。

在开发MBAFF标准期间，据报道，采用ITU-601分辨率，MBAFF编码技术比PAFF相比可减少码率14%到16%。

7、帧内预测

根据像条编码类型，每个宏块可以选择几种编码类型之一。所有像条类型支持两级帧内编码，称为INTRA-4×4和 INTRA-16×16。

INTRA-4×4模式基于分别预测每个4×4亮度块，适合表现图像细节部分。而INTRA-16×16模式将整个16×16亮度块进行预测，适合平滑图像区。此外对这两种亮度预测类型，色度单独进行预测。作为INTRA-4×4和INTRA-16×16的另一种选择，I_PCM编码类型允许编码器简单跳过预测和变换编码过程，直接发送采样值。I_PCM允许编码器精确地表示采样，通常表示一些反常图像，而没有明显增加数据量。

8、帧间预测

● p像条帧间预测

除了帧内宏块编码类型外，P像条宏块使用多种预测类型，即运动补偿编码类型。为了方便运动描述，每个P型宏块对应于指定的固定大小的宏块划分。亮度块的划分大小为：16×16、16×8、8×16、8×8。

语法允许运动矢量跨越图像边界，这种情况参考帧需用外插法推算出图像外的采样值。利用邻近块的平均或方向预测，用差分编码计算运动矢量。

语法支持多图像运动补偿预测，以前编码的多个图像都可用作运动补偿参考，每个运动补偿需要指示参考图像的索引。一个8×8块划分成的小于8×8块的运动补偿使用同一参考图像索引，该功能要求编码和解码器具有多帧图像缓冲器，解码器通过位流中的管理控制操作信息与编码器同步。

除了运动补偿宏块模式外，P宏块可使用P_Skip模式，这种模式没有量化预测误差、不用传送运动矢量和参考索引参数。信号重建与P_16×16宏块类型预测信号类似，采用多帧缓冲区索引0的图像作为参考图像。重建P_Skip宏块的运动矢量与16×16块运动矢量预测类似。P_Skip编码类型适合没有变化或固定运动的区域，如摇镜头等，有极高的压缩率。

● B像条的帧间预测

B像条相对P像条的概念与以前的标准类似，但有些不同，B像条可以作为运动补偿预测的参考图像，B像条可以对两个补偿预测值进行加权运算。

9、变换和量化

与以前的视频编码标准类似，H.264/AVC利用预测残余变换编码。然而，H.264/AVC变换施加4×4块上，不用离散余弦变换（DCT），采用与离散余弦变换相似特性的整数变换。因为使用整数运算，所以反变换没有误差。

10、熵编码

H.264/AVC支持两种熵编码方法，最简单的熵编码方法是：对所有的语法元素，除了量化系数外，使用单一无限可扩展的码字表。这样不必为每个语法元素设计一个专用的VLC表，只需要按照数据的统计特性，客户化影射到单一码字表。使用exp-Golomb码建立单一码表，具有很简单、有规则的解码特性。

为了有效传送量化的变换系数，CAVLC（上下文自适应的可变长编码）是很有效的方法。在该方案中，对于各种语法元素的VLC码表按照已传送的语法元素可以进行切换。因为VLC表设计匹配相应的条件统计，改善了熵编码的性能。

在H.264/AVC中的算术编码引擎，与概率相关的估计等都不使用乘法操作，而是使用简单的移位和查找操作，与CAVLC操作相比，CABAC典型减少码率5%～15%。在隔行扫描视频，效果更明显。

11、去块循环滤波器

基于块编码的压缩算法的特点是偶尔产生可见的块结构，由于块边沿的精度比内部差，块效应是目前压缩算法的常见人工瑕疵。H.264/AVC定义了一个自适应循环滤波器，滤波的强度通过几个语法元素控制。

滤波的基本思想是：如果块边沿的绝对差值相对比较大，出现块人工瑕疵的可能性就很大，因此需要进行相应处理。然而，如果差值幅度很大，编码量化过程的误差不能解释，边沿很可能反映了源图像的实际样值，不需处理。

经过滤波处理，减少了块效应，而图像的质量基本不受影响，因此主观质量大大改善。如果不滤波，同样的主观质量，需要多出5%~10%的码率。图3说明了块滤波器的效果。

12、假想参考解码器模型

标准的好处在于保证所有符合标准的解码器能够解码出一致的视频质量。要实现标准，仅仅提供编码算法的描述是不够的，在实时系统中，指定如何馈送码流比特给解码器，解码的图像如何移出解码器等都是很重要的。要实现该功能，必须指定输入/出缓冲器模型和开发与实现无关的接收机模型。这样的接收机模型称为假想参考模型（HRD）。编码器不允许产生假想参考模型不能解码的位流。因此如果所有接收机都模拟假想参考模型的行为，可以保证所有解码器解出的码流具有很好的一致性。

四、类和级及其应用

1、类和级

类和级指定符合点，这些符合点用于实现各种标准应用之间的互操作性。类定义一组编码工具和算法，用于产生一致性的比特流，级限定比特流的部分关键参数。

所有的解码器符合指定的类必须支持该类定义的所有特性，编码器不必要求使用该类支持的任何特定的特性集，但必须提供一致性的比特流，即使支持该类的解码器能实现解码。

H.264/AVC定义了3类：基类、主类和扩展类。

基类支持除下面两组特性外的所有的H.264/AVC特性：

（1）B像条、加权预测、CABAC、场编码、图像或宏块在帧场编码之间自适应切换。

（2） PI/SI像条和像条数据分割。

主类支持第一组特性，但主类不支持FMO、ASO和冗余图像特性，扩展类支持除CABAC外所有H.264/AVC特性，序列参数中包含了一些标志指示解码该码流要求解码器支持的类。

在H.264/AVC，所有类使用相同的级定义，但个别实现时，可能每个支持的类支持的级不完全相同。H.264/AVC定义了15个级。

2、新标准类的使用领域

   MPEG-4的编码理念是：MPEG-4标准同以前标准的最显著的差别在于它是采用基于对象的编码理念，即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象，分别编码后，再经过复用传输到接收端，然后再对不同的对象分别解码，从而组合成所需要的视频和音频。这样既方便我们对不同的对象采用不同的编码方法和表示方法，又有利于不同数据类型间的融合，并且这样也可以方便的实现对于各种对象的操作及编辑。例如，我们可以将一个卡通人物放在真实的场景中，或者将真人置于一个虚拟的演播室里，还可以在互联网上方便的实现交互，根据自己的需要有选择的组合各种视频音频以及图形文本对象。

   MPEG-4系统的一般框架是：对自然或合成的视听内容的表示；对视听内容数据流的管理，如多点、同步、缓冲管理等；对灵活性的支持和对系统不同部分的配置。

   与MPEG-1、MPEG-2相比，MPEG-4具有如下独特的优点：

   （1）基于内容的交互性

   MPEG-4提供了基于内容的多媒体数据访问工具，如索引、超级链接、上下载、删除等。利用这些工具，用户可以方便地从多媒体数据库中有选择地获取自己所需的与对象有关的内容，并提供了内容的操作和位流编辑功能，可应用于交互式家庭购物，淡入淡出的数字化效果等。MPEG-4提供了高效的自然或合成的多媒体数据编码方法。它可以把自然场景或对象组合起来成为合成的多媒体数据。

   （2）高效的压缩性

   MPEG-4基于更高的编码效率。同已有的或即将形成的其它标准相比，在相同的比特率下，它基于更高的视觉听觉质量，这就使得在低带宽的信道上传送视频、音频成为可能。同时MPEG-4还能对同时发生的数据流进行编码。一个场景的多视角或多声道数据流可以高效、同步地合成为最终数据流。这可用于虚拟三维游戏、三维电影、飞行仿真练习等

   （3）通用的访问性

   MPEG-4提供了易出错环境的鲁棒性，来保证其在许多无线和有线网络以及存储介质中的应用，此外，MPEG-4还支持基于内容的的可分级性，即把内容、质量、复杂性分成许多小块来满足不同用户的不同需求，支持具有不同带宽，不同存储容量的传输信道和接收端。

   这些特点无疑会加速多媒体应用的发展，从中受益的应用领域有：因特网多媒体应用；广播电视；交互式视频游戏；实时可视通信；交互式存储媒体应用；演播室技术及电视后期制作；采用面部动画技术的虚拟会议；多媒体邮件；移动通信条件下的多媒体应用；远程视频监控；通过ATM网络等进行的远程数据库业务等。MPEG-4主要应用如下：

   （1）应用于因特网视音频广播

   由于上网人数与日俱增，传统电视广播的观众逐渐减少，随之而来的便是广告收入的减少，所以现在的固定式电视广播最终将转向基于TCP/IP的因特网广播，观众的收看方式也由简单的遥控器选择频道转为网上视频点播。视频点播的概念不是先把节目下载到硬盘，然后再播放，而是流媒体视频（streaming video），点击即观看，边传输边播放。

   现在因特网中播放视音频的有：Real Networks公司的 Real Media，微软公司的 Windows Media，苹果公司的 QuickTime，它们定义的视音频格式互不兼容，有可能导致媒体流中难以控制的混乱，而MPEG-4为因特网视频应用提供了一系列的标准工具，使视音频码流具有规范一致性。因此在因特网播放视音频采用MPEG-4，应该说是一个安全的选择。

   （2）应用于无线通信

   MPEG-4高效的码率压缩，交互和分级特性尤其适合于在窄带移动网上实现多媒体通信，未来的手机将变成多媒体移动接收机，不仅可以打移动电视电话、移动上网，还可以移动接收多媒体广播和收看电视。

   （3）应用于静止图像压缩

   静止图像（图片）在因特网中大量使用，现在网上的图片压缩多采用JPEG技术。MPEG-4中的静止图像（纹理）压缩是基于小波变换的，在同样质量条件下，压缩后的文件大小约是JPEG压缩文件的十分之一。把因特网上使用的JPEG图片转换成MPEG-4格式，可以大幅度提高图片在网络中的传输速度。

   （4）应用于电视电话

   传统用于窄带电视电话业务的压缩编码标准，如H261，采用帧内压缩、帧间压缩、减少象素和抽帧等办法来降低码率，但编码效率和图像质量都难以令人满意。MPEG-4的压缩编码可以做到以极低码率传送质量可以接受的声像信号，使电视电话业务可以在窄带的公用电话网上实现。

   （5）应用于计算机图形、动画与仿真

   MPEG-4特殊的编码方式和强大的交互能力，使得基于MPEG-4的计算机图形和动画可以从各种来源的多媒体数据库中获取素材，并实时组合出所需要的结果。因而未来的计算机图形可以在MPEG-4语法所允许的范围内向所希望的方向无限发展，产生出今天无法想象的动画及仿真效果。

   （6）应用于电子游戏

   MPEG-4可以进行自然图像与声音同人工合成的图像与声音的混合编码，在编码方式上具有前所未有的灵活性，并且能及时从各种来源的多媒体数据库中调用素材。这可以在将来产生象电影一样的电子游戏，实现极高自由度的交互式操作。

H.264/AVC的高压缩效率，扩充了现有的应用领域，至少包含以下领域：

（1）交互视频服务，通常速率1Mbps以下，低延迟。ITU-T SG16正在修改有关系统建议，IETF正在设计RTP净荷打包器，以支持H.264/AVC在交互视频方面的应用。近期主要利用基类，然后过渡到另两类。主要应用如下：

H.320 交互式视频服务，利用基于ISDN视频会议的电路交换；

3 GPP交互式H.324/M服务；

H.323交互式视频服务，基于INTERNET，利用IP/RTP协议。

（2）娱乐视频应用，1Mbps～8Mbps码率，0.5 到2秒中等时延。H.222.0|MPEG-2正在被修改以支持这方面的应用，这些应用主要利用主类，主要应用如下：

有线、卫星、地面、DSL等广播电视；

标清和高清DVD；

通过各种媒体的视频点播。

（3）流媒体服务，典型50kbps到1.5Mbps，2秒以上的时延，这些应用主要利用基类或扩展类。有线或无线使用情况有所不同，主要应用如下：

3GPP 流，利用IP/RTP传输，RTSP作会话设置，3GPP规范的扩充部分可能仅使用基类；

有线INTERNET 流，利用IP/RTP传输，RTSP作会话设置。

（4）其他服务，主要是低码率，以文件传送方式，不考虑时延，根据不同应用，可能用到3类，主要应用如下：

3GPP 多媒体信息服务；

视频邮件。

六、结论

H.264代表了当前业界最先进的视频压缩技术，且具有以下无可比拟的优越性。

1、码率低：和MPEG-2等压缩技术相比，在同等图像质量下，采用H.264技术压缩后的数据量只有MPEG-2的1/2~1/3。显然，H.264压缩技术的采用将大大节省用户的下载时间和数据流量收费。

2、图像质量高：H.264能提供连续、流畅的高质量图像。

3、容错能力强：H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。

4、网络适应性强：H.264提供了网络适应层，使得H.264的文件能容易地在不同网络上传输。

H.264超越以往的视频编解码标准，成为各个厂商竞争的焦点。目前，各主流厂商纷纷宣布，已经或将在明年推出产品化的H.264。在视频广播领域，美国哈雷公司宣布其产品MV100编码器可以支持H.264协议，哈雷原来的MPEG-2编码器MV100硬件平台已经兼容H.264能力，只需从软件升级即可。在欧洲，有两个用户已经选用了此种编码器。其中一个是法国的卫星及直播星运营商CanalSatellite，它采用哈雷高性能的数字前端系统在ADSL上传输视频业务，MV100超低码率编码能力可以实现在多种电信网上传输广播级视频节目。另外是第一个即将投入正式商业运营的英国Video network limited。

MPEG-4标准

运动图像专家组MPEG 于1999年2月正式公布了MPEG-4（ISO/IEC14496）标准第一版本。同年年底MPEG-4第二版亦告底定，且于2000年年初正式成为国际标准。

MPEG-4与MPEG-1和MPEG-2有很大的不同。MPEG-4不只是具体压缩算法，它是针对数字电视、交互式绘图应用（影音合成内容）、交互式多媒体（WWW、资料撷取与分散）等整合及压缩技术的需求而制定的国际标准。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内，旨在为多媒体通信及应用环境提供标准的算法及工具，从而建立起一种能被多媒体传输、存储、检索等应用领域普遍采用的统一数据格式。