改编码格式_视频格式——编码和压缩

最新推荐文章于 2024-06-02 15:41:08 发布

weixin_39640085

最新推荐文章于 2024-06-02 15:41:08 发布

阅读量920

点赞数

文章标签：改编码格式

本文链接：https://blog.csdn.net/weixin_39640085/article/details/111701178

版权

本文详细介绍了视频格式的组成，包括镜头、CCD、编码和记录四个部分。重点讲解了编码过程中的色度采样，如4:2:2、4:2:0和4:1:1采样，以及视频压缩的两种主要方式：帧内压缩和帧间压缩（LGOP压缩）。通过采样和压缩，视频数据得以减小并适应不同的存储介质。不同采样和压缩方式对视频质量的影响也在文中进行了对比和讨论。

摘要由CSDN通过智能技术生成

视频的格式，其实就是视频的种类，就跟我们人类有多少种语言一样，视频格式就是视频的语言。

我们前面知道CCD经过扫描，获得了视频画面，那所谓的''视频的语言”用的是什么语法呢？好，我们下面就来看看同样是CCD产生的画面，怎么就让视频讲出话来了。

① 摄像机的组成

这是一台摄像机，我们按功能区域把它给拆成四个部分：镜头、CCD、编码、记录。镜头不用说了。CCD我们也说过了，它通过扫描获得画面。编码(Encoding), 或者叫编码处理器，就是把画面变成信号编码。记录，其实就是个录机, 把画面编码写进磁带、硬盘或者存储卡里。

怎么样，摄像机结构很简单吧。你一定猜到了，导致产生不同视频类型的部分就是编码部分。不同的编码处理器，就产生不同的编码，而这些不同编码，就是形成了不同的视频格式。编码就是视频的语法，使用不同的编码器，出来的就是不同的视频格式。

② 采样

看下图，这是摄像机各部分对应的视频图像的处理流程。我们看到镜头和CCD部分把拍摄的画面变成了 RGB像素(我们用4个像素来举例)。然后CCD把生成的RGB 像素发送给编码部分。

哇塞，编码部分果然有很多事情要做。首先，它把RGB转换成YUV, YUV我们前面已经介绍过了，复习一下，丫是亮度分量，U和V是色度分量。然后编码器进行对 YUV进行采样，生成码流，然后进行压缩。最后送给记录部分，写进磁带里。

编码部分的工作实际上就是转换成YUV、对YUV进行采样、压缩，3个工作。你一定会觉得奇怪，除了 RGB转换成YUV，像素信息好像也没什么变化嘛，采样也没有改什么，顶多压缩一下就写进磁带了。是啊，这张图似乎不太能说明什么问题，

看下图。注意编码处理的部分，转换YUV和上面那张图一样，但采样部分就变了。经过采样后，Y分量都还在，但几个U分量和V分量不见了，具体就是U2、U4、VI、 V3不见了。去哪里了？很抱歉，扔掉了。什么！不要啦？是的，不要了。

为什么要把几个分量扔掉，难道不需要吗？其实不是不需要，只是我们的磁带装不下那么多信息，于是就在采样的过程中，把一些色度信息剔除掉，从而把整体信息容量减少，这样可使传输和处理都相对容易些。扔掉了色度信息，色彩不就失真了吗？是的，失真是必然的，但如果能控制在可以接受且不易辨认的范围内就没有问题。可是为什么不扔掉几个丫呢？因为丫作为亮度分量承载的是图像信息，简单地讲，它代表的是形状，如果形状信息扔了，图像就会变形；而色彩信息则没那么严重，即便全扔了还能看黑白电视，所以要牺牲只能牺牲色彩。可到时播放的时候，电视机仍然是需要RGB信息啊，你把一部分色彩分量扔了，到时你拿什么转换回RGB给电视机？这个问题不着急，现在我们才刚开始编码呢，到后面解码的时候自有办法。

仔细看一下采样后的4个像素，Y都在有4个，U剩2个，V剩2个。我们就把这样的采样叫做4:2:2采样，意思就是“Y比U比V”的比例。你可以回头看前面那张图，知道怎么叫了吧，对了，那就是传说中的4:4:4采样。4:4:4采样就是什么东西都没扔, 因此是最保真的，当然，需要的信息存储空间也是最大的。

怎么样，这个所谓的采样很容易理解吧。因为采样扔的都是色度信息，所以也被称作“色度采样"或“色彩采样"。色度采样是视频格式中的重要部分，在每个视频格式的参数中必然有该格式所使用的采样，而且都是“丫： U： V”的写法。采样大都以4个像素作为一个采样单位，而且丫都是不扔的，所以基本都是“4： X： X”这样的形式。

注意，这个“色度采样”和前面的''CCD采样率”是不一样的。色度采样是对色彩的处理，而CCD采样率是“拾取” CCD上的图像信息。

好，我们来看4:1:1采样。如图，经采样后，4个像素只剩下了 1个U分量和1个 V分量，因此就叫4:1:1。呵，够狠的，色度信息一下被扔掉了 3/4。是啊，NTSC制式的DV就是这种采样。那我们PAL制的DV据说是4:2:0采样，是不是比他们的N制的强呢？我们就接着看4:2:0采样，一会儿就知道答案了。

4:2:0采样比前面三种复杂点，但也不难理解。看图，4:2:0采样按2排共8个像素作为1个采样单位。我们知道采样的关键就是怎么扔色度信息。先看第1排，U分量扔掉2个，V分量全扔；再看第2排，U分量全扔，V分量扔掉2个。扔完之后，我们单看第1排，可以叫它4:2:0；单看第2排，可以叫它4:0:2；如果我们两排一起看，可以叫它8:2:2,对吧。为了和其他的采样形式在名称上统一，这种采样就用第1排的4:2:0 来代表了。因此，也容易造成误解，从字面看仿佛V分量都扔光了。

这就是我们PAL制DV采用的色度采样，它和4:1:1 一样，都扔掉了 3/4的色度信息，因此没有哪个更好，很遗憾，难兄难弟而已。从色度采样我就能知道，为什么我们 DV的色彩比不了电视台的大摄像机，色彩都采成这样了，能''出彩”吗。

下表是一些常见的视频格式的采样

从表中可以看出，现在流行的HDV采用的也是4:2:0色度采样，和DV是一样的。也就是说，HDV在色彩上的表现并不会比DV强太多。在一些测试中，DVCPRO HD 的色彩表现要明显好于HDV，原因就是DVCPRO HD是4:2:2采样。

③ 压缩

编码器完成色度采样之后，形成的编码对于磁带而言依然太大了。有没有搞错？都采成这样了还大啊！没办法，视频就这样。采样完的1帧DV画面(720x576)有约600KB 大小，1秒15MB, 1分钟将近1GB (一张DVD容量4.7GB)；而一盘60分钟的DV 磁带容量才13GB，不压缩往哪放啊。如图，采样后的视频码流被送进一个“榨汁机”里

进行压缩，被榨成“脱水蔬菜”，这样就好装进“罐头”里了。

针对不同的“罐头”尺寸和“蔬菜”种类，“榨汁机”的种类和“压榨力度”也不一样。有些罐头容量比较大，榨汁的力度就可以小点，榨出的蔬菜还带点水分；如果罐头比较小, 而蔬菜又比较多，那榨出来就是“菜干”了，就像方便面里那种。

所谓压缩，就是通过某种数据运算将画面中一些“冗余的”部分去除，在保证画面质量的同时降低数据量。虽然理论上存在无损压缩，但无损压缩的数据量跟不压缩相差无几。因此在实际应用中，我们使用的压缩都是有损压缩，意思就是，画面的质量是一定会下降的，只是下降的幅度或多或少而已。

从''榨汁方法”来讲，视频压缩分两种：一种叫帧内压缩(Intraframe Compression)，另一种叫帧间压缩(Interframe Compression)。帧内压缩就是每帧自己压自己的，跟前面和后面的帧都没有关系。帧间压缩就是根据某一帧前面和后面的帧进行压缩，如下图所示，如果在连续几帧中，不变化的画面部分将作为“没用的”部分被去掉，只留下那些“有用的”部分。

压缩方式是视频格式中的第三个重要部分(前面两个是CCD扫描方式和色度采样)。使用什么样的压缩方式，将直接影响视频格式的质量。在分析压缩前，我们先介绍几个名词：

① I帧(Intra-frame),读作''挨针”。这个词在关于视频压缩的文章中经常出现，显得很深奥的样子，其实，所谓I帧就是“关键帧”，意思就是这帧很关键。为什么关键呢？因为这帧里包含了进行压缩所需要的全部信息。比如上面“帧间压缩”的第一个画面，就是一个丨帧。

② GOP(Group of Pictures)，有人翻译作“图片群”或“图片组”，我们直接读“居欧劈” 即可。GOP指的就是一组连续的帧，比如6帧GOP就是连续6帧画面，15帧GOP 就是连续15帧画面。很容易理解哈。

③ 短GOP(Short GOP),指只有一帧的GOP,而且这帧是I帧(“挨针”)。比如上面图中“帧内压缩”的每个画面都是一个短GOP，即每帧都是I帧。短GOP的提法比较少用，一般都是直接说I帧。

④ 长GOP(Long GOP)，超过一帧的GOP，比如6帧GOP，15帧GOP。长GOP 习惯写作LGOP。通常来讲，如果提到GOP指的都是LGOP。

⑤ B 帧(Bi-direction frame)和 P 帧(Predicted frame)，B 帧和 P 帧都是没有完整画面信息的帧，它们只在帧间压缩中才会存在。比如上面图中“帧间压缩”的第二个画面。

好了，现在可以开讲压缩了。首先是帧内压缩。帧内压缩就是以帧为单位进行压缩，每一帧都是独立作业，帧之间不互相影响，因此帧内压缩在很大程度上就相当于图片压缩，每一帧就是一张图片。比如最常见的压缩方式M-JPEG，就是JPEG图片压缩方式在视频压缩上的应用。由于每帧是独立压缩，且每帧都是I帧，因此帧内压缩也被称为T帧压缩”。DV格式使用的就是I帧压缩。

相对于帧内压缩而言，帧间压缩就复杂一些。首先，帧间压缩不是以帧为单位，而是以LGOP为单位。意思就是说，帧间压缩不是一帧一帧地压，而是一组一组地压。如

图，这是一个典型的“15帧LGOP帧间压缩”。15帧作为一个LGOP，以一个I帧领头,

LGOP为单位进行压缩，因此又被称为“LGOP压缩”。HDV格式使用的“MPEG-2压缩”

就是一种LGOP压缩，索尼Z1使用的是“15帧LGOP压缩”，JVC HD100使用的是“6 帧LGOP压缩”。还有AVCHD的“MPEG-4压缩”和现在流行的“H.264压缩”都是LGOP 压缩。

I帧压缩(帧内)和LGOP压缩(帧间)的出发点是不一样。I帧压缩是根据每帧的“画面内容”进行压缩，由于每帧独立，无论拍摄的是运动镜头还是固定镜头，对压缩率并没有影响。LGOP压缩是根据“帧与帧之间的关系”进行压缩，如果是静止画面，I 帧后面的那些B帧和P帧几乎什么信息都可以不留；如果是运动画面，B帧和P帧只需要保留那些变化的即可。如果用一句话来区分这两种压缩方式，可以说：T帧压缩是静态压缩，LGOP压缩是动态压缩”。从算法理论上讲，这两种压缩方式并没有谁优谁

劣，只是方式不用而已。但从压缩率上讲，LGOP压缩的压缩率就比I帧压缩要高很多。

如图，I帧压缩后的4帧画面的容量大约可以装得下LGOP压缩后的15帧画面。这就是为什么HDV画面可以装进DV磁带里的原因，压得跟DV 一样小了，当然就可以装进去了。也正因为这样丄GOP压缩在视频传输领域被广泛应用，数字电视网信号、DVD、HD DVD、蓝光DVD(Blue-ray disc)、以及常见的网络流媒体

(WMVs DivX、MP4.....)都是使用 LGOP 压缩。

但是，即使是同一种压缩方式里，也有不同的压缩率和压缩质量，比如同是MPEG-2 压缩，DVD的压缩率就比HDV要高很多，但质量就比不了 HDV;你可以理解成“榨汁力度”不同，DVD是''浓缩型”，HDV是''原汁型”。

至于说装“菜干”的“罐头”是磁带、硬盘、光盘、还是存储卡，并不重要，这些都只是存储介质而已，就像“罐头”是铁罐还是玻璃罐一样。重要的是我们前面讲的三样东西: 扫描方式、色度采样、压缩。这三样保证了，放进瓦罐还是玻璃罐都无所谓。

色度采样的比较我们前面讲了，4:2:2保留的色彩信息比4:2:0要多，因此必然比 4:2:0要好。但压缩怎么比呢，两种压缩方式使用的是不同的压缩原理。是的，在理论上的确不好比，但我们可以从它们在实际应用的表现，也就是解码(Decoding)之后的画面质量来对比，这就是后面的内容了。

下表是一些视频格式的关键指标:

表中”码流”指的是记录的数据流量，单位Mb/s,就是兆比特每秒。这里注意一下，b*B，小b是比特，大B是字节，8比特=1字节，即8b=1B。数据传输一般用比特(小b)做单位，而电脑文件用字节(大B)做单位，比如一张CD有700MB，一张DVD有4.7GB。DV的码流25Mb/s，大约是每秒3.6MB。

从表中可以看出，即使相同的压缩方式，“压榨力度”不同，获得的数据量也是不 —样的。

讲到这里，视频格式在摄像机里面的事情就讲完了。怎么样，还能跟上节奏吗。