新一代视频压缩编码标准 ——H.264/AVC 笔记(1)

2011-09-16 13:26

新一代视频压缩编码标准

——H.264/AVC----毕厚杰

笔记

 

1.

人类社会的三大支柱是物质、能量和信息。具体而言,农业现代化的支持是物质;

工业现代化的支柱是能量;而信息化的支柱是信息。

 

2。

如果采用“一幅图像由许多像素构成”

的信源模型,这种信源模型的参数就是每个像素的亮度和色度的幅度值。对这些参数进行压缩编码

技术称为基于波形的编码。如果采用一个分量有几个物体构成的信源模型,这种信源模型的参数就

是各个物体的形状、纹理和运动。对这些参数进行压缩编码的技术被称为基于内容的编码

由此可见,根据采用信源模型,视频编码可以分为两大类,基于波形的编码和基于内容的编码

 

3.

MPEG-4 采用的编码方法就既基于块的混合编码,又有基于内容的编码方法

 

4.

将输入的模拟电视信号变成输出的数字电视信号需经过取样、量化、编码三个步骤,如图2.2

所示,由A/D 变换器完成这三个步骤。

所谓取样,就是在时间轴上把连续变化的模拟信号变为离散量的过程。

这种将信号幅值由连续量变成离散量的过程称为量化。对于量化后的信号,通常用“0”和“1”表示,即用二进制码表示。这时的编码称为脉冲编码调制——PCM 编码

 5.

隔行扫描帧图像由两场组成,每场由若干行组成,奇数行和偶数行各构成一场,它们分别为顶

场和底场,如图2.6 所示。帧场的邻近行相关性并不相同。帧的邻近行空间相关性强,时间相关性

弱,因为某行的邻近行(下一行)要一场扫描完才能被扫描,在压缩静止图像或运动量不大的图像

时采用帧编码方式。场的邻近行时间相关性强,空间相关性差,因为场的一行扫描完毕,接着对场

中下一行扫描。因此对运动量大的图像常采用场编码方式。实际的视频图像有快有慢,有粗有细,

应根据这个标准自适应选择帧/场编码方式。

 

6.在同一电视信号帧中,同一行由若干取样点构成,这些取样点称为像素,这种取样就属于空间

取样。其前提是假定一帧图像是静止的,每个像素点处于同一时刻及不同的空间位置上。

7.

量化值Qp

量化值(量化节距)取得太大,视频图像显得粗糙;取得太小,视频图像质量好,但带宽浪费

过大。一般认为,每个取样值采用8 个比特表示,即256 个灰度级,是比较合理的。

8.


9.

图像增强作为一种重要的图像处理技术,目的无非就是两个:第一更适合人眼的感觉;第

二有利于后续的分析处理。

 

10.

一般来说,图像的能量主要集中在其低频部分,噪声所在的频段主要在高频段,同时图像中的

细节信息也主要集中在其高频部分,因此,如何去掉高频干扰又同时保持细节信息是关键。

 

11.

图像銳化处理的目的就是为了使图像的边缘、轮廓线以及图像的细节变的清晰,经过平滑的图

像变得模糊的根本原因是因为图像受到了平均或积分造成的,因此可以对其进行逆运算(如微分运

算)就可以使图像变的清晰

12

色温。所谓色温,简而言之,就是定量地以开尔文温

度表示色彩。色温越高,蓝色成分就越多;色温越低,红色成分就越多,在摄影、摄像时,不同色

温光源下拍摄物体,获得的图像不可避免会出现色彩上的偏差。

13.

编码端:X-A=q

解码端:q+A=X

按以上原理可得预测编码框图,如图3.2 所示。这种预测编码也称为差分脉冲编码(DPCM)。

 

14.几个重要算法

哈夫曼编码

快速傅立叶变换

离散余弦变换(DCT)

算术编码

 

15.

MPEG-1 定义了三种图像类型:I、P、B 图像。I 图像即帧内(Intra)图像,采用帧内

编码,不参考其它图像,但可作为其它类型图像的参考帧。P 图像即预测(Predicted)图像,

采用帧间编码,参考前一幅I 或P 图像(NOTE:P只会参考I,P,不会参考B),用作运动补偿。B 图像即双向预测(Bi- predicted)

图像,参考前后两个方向图像

 

16.

双向预测编码可解决“暴露”问题,即某物体在前一帧未显示出来,但在后一帧却“暴露”

出来,双向预测能更准确地找出运动矢量,并只有在视频存储、VOD 等非实时通信及数字

广播电视中应用。会议电视、可视电话等实时通信中不宜应用B 图像,因为实时通信后一

帧处在当前帧之后,当前帧编码时它尚未出现。

 

17.

MPEG-2 编码复用系统

MPEG-2 码流分为三层,即基本流(ES,elementary bit stream)、包基本码流(PES,packet

elementary stream)和复用后的传送码流(TS,transport stream)、节目码流(PS,program

stream)。

18.

 ES 码流结构

ES码流采用图像序列(PS)、图像组(GOP)、图像(P)、片(slice)、宏块(MB)、块

(B)六层结构,具体结构见图4.15。

(1)图像序列层,图像序列包括若干GOP,序列头包含起始码和序列参数,如档次、

级别、彩色图像格式、帧场选择等等;

(2)图像组层,图像组包含若干幅图像,组头包含起始码、GOP 标志等,如视频磁带

记录器时间、控制码、B 帧处理码等;

(3)图像层,一幅图像包含若干片,头信息中有起始码、P 标志,如时间、参考帧号、

图像类型、MV、分级等;

(4)片层,片是最小的同步单位,包含若干宏块,片头中有起始码、片地址、量化步

长等;

(5)宏块层,宏块由4 个8×8 亮度块和2 个色度块组成,宏块头包括宏块地址、宏块

类型、运动矢量等。

 

19.

多媒体技术获得使用的关键技术之一就是解决视频、音频数字化后数据量大与数字存储媒体和

通信网带宽小的矛盾

20.

MPEG-4 可根据带宽和误码率的客观条件,在时域或空域进行扩展。前者指在带宽允许时增加

帧率带宽窄时,减少帧率,已达到充分利用带宽;后者指对图像进行采样插值,增加或减少空间分

辨率。

21

VO 主要定义为画面中分割出来的不同

物体,并由三类信息描述:运动信息、形状信息、纹理信息

22.

羽化就是轮廓边缘光滑过渡到背景。

23.

扩展主要由两种类型:空域扩展和时域扩展。空域扩展用来扩展空间分辨率,时域

扩展则提供时间分辨率的扩展功能。两种类型扩展都涉及多层,一般分为高低两层,低层作为基本

层,高层为增强层。传统上,在视频帧上应用这些扩展性,而许多MPEG-4 要求具有任意形状VOP

的扩展。

24

1)场和帧

视频的一场或一帧可用来产生一个编码图像。通常,视频帧可分成两种类型:连续或隔行视频帧。

在电视中,为减少大面积闪烁现象,把一帧分成两个隔行的场。显然,这时场内邻行之间的空间相

关性较强,而帧内邻近行空间相关性强,因此活动量较小或静止的图像宜采用帧编码方式,对活动

量较大的运动图像则宜采用场编码方式。

25.

I 片只包含I 宏块,P 片可包含P 和I 宏块,而B 片可包含B 和I 宏块。

I 宏块利用从当前片中已解码的像素作为参考进行帧内预测(不能取其它片中的已解码像素作为

参考进行帧内预测)。

P 宏块利用前面已编码图象作为参考图象进行帧内预测,一个帧内编码的宏块可进一步作宏块的

分割:即16×16、16×8、8×16 或8×8 亮度像素块(以及附带的彩色像素);如果选了8×8 的子宏块,

则可再分成各种子宏块的分割,其尺寸为8×8、8×4、4×8 或4×4 亮度像素块(以及附带的彩色像素)。

B 宏块则利用双向的参考图象(当前和未来的已编码图象帧)进行帧内预测。

26.

制订H.264 的主要目标有二个:

1)高的视频压缩比,当初提出的指标是比H.263,MPEG-4,约为它们的2 倍,现在都已基本实

现;

2)良好的网络亲和性,即可适用于各种传输网络。

为此,H.264 的功能分为两层,即视频编码层(VCL)和网络提取层(NAL,Network Abstraction

Layer)。VCL 数据即编码处理的输出,它表示被压缩编码后的视频数据序列。在VCL 数据传输或存

储之前,这些编码的VCL 数据,先被映射或封装进NAL 单元中。

每个NAL 单元包括一个原始字节序列负荷(RBSP)、一组对应于视频编码数据的NAL 头信息。

NAL 单元序列的结构见图6.6

27.

一个视频图像可编码成一个或更多个片,每片包含整数个宏块(MB),即每片至少一个MB,最

多时每片包含整个图像的宏块。总之,一幅图像中每片的宏块数不一定固定。

设片的目的是为了限制误码的扩散和传输,应使编码片相互间是独立的。某片的预测不能以其它

片中的宏块为参考图像,这样某一片中的预测误差才不会传播到其它片中去。

编码片共有5 种不同类型,除已讲过的I 片、P 片、B 片外,还有SP 片和SI 片。其中SP(切换

P)是用于不同编码流之间的切换;它包含P 和/或I 宏块。它是扩展档次中必须具有的切换,它包

含了一种特殊类型的编码宏块,叫做SI 宏块,SI 也是扩展档次中的必备功能。

28.

SP 帧与SI 帧均可用于流间切换。当视频流的内容相同,编码参数不同采用SP 帧;

而当视频流的内容相差很大时,则采用SI 帧将更加有效。

 29.

MPEG-4 中的重点是灵活性不同,H.264 着重在压缩的高效率和传输的高可靠性

30.

CAVLC(基于上下文自适应的可变长编码)

熵的大小与信源的概率模型有着密切的关系,各个符号出现的概率不同,信源的熵也不同。当

信源中各事件是等概率分布时,熵具有极大值。信源的熵与其可能达到的最大值之间的差值反映了

该信源所含有的冗余度。信源的冗余度越小,即每个符号所独立携带的信息量越大,那么传送相同

的信息量所需要的序列长度越短,符号位越少。因此,数据压缩的一个基本的途径是去除信源的符

号之间的相关性,尽可能地使序列成为无记忆的,即前一符号的出现不影响以后任何一个符号出现

的概率。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值