视频的格式,其实就是视频的种类,就跟我们人类有多少种语言一样,视频格式就是视频的语言。
我们前面知道CCD经过扫描,获得了视频画面,那所谓的''视频的语言”用的是什么语法呢?好,我们下面就来看看同样是CCD产生的画面,怎么就让视频讲出话来了。
① 摄像机的组成
这是一台摄像机,我们按功能区域把它给拆成四个部分:镜头、CCD、编 码、记录。镜头不用说了。CCD我们也说过了,它通过扫描获得画面。编码(Encoding), 或者叫编码处理器,就是把画面变成 信号编码。记录,其实就是个录机, 把画面编码写进磁带、硬盘或者存储 卡里。
怎么样,摄像机结构很简单吧。 你一定猜到了,导致产生不同视频类型的部分就是编码部分。不同的编码处理器,就产生不同的编码,而这些不同编码,就是形成了不同的视频格 式。编码就是视频的语法,使用不同的编码器,出来的就是不同的视频格式。
② 采样
看下图,这是摄像机各部分对应的视频图像的处理流程。我们看到镜头和CCD部分把拍摄的画面变成了 RGB像素(我们用4个像素来举例)。然后CCD把生成的RGB 像素发送给编码部分。
哇塞,编码部分果然有很多事情要做。首先,它把RGB转换成YUV, YUV我们前面已经介绍过了,复习一下,丫是亮度分量,U和V是色度分量。然后编码器进行对 YUV进行采样,生成码流,然后进行压缩。最后送给记录部分,写进磁带里。
编码部分的工作实际上就是转换成YUV、对YUV进行采样、压缩,3个工作。 你一定会觉得奇怪,除了 RGB转换成YUV,像素信息好像也没什么变化嘛,采样也没有改什么,顶多压缩一下就写进磁带了。是啊,这张图似乎不太能说明什么问题,
看下图。注意编码处理的部分,转换YUV和上面那张图一样,但采样部分就变了。 经过采样后,Y分量都还在,但几个U分量和V分量不见了,具体就是U2、U4、VI、 V3不见了。去哪里了?很抱歉,扔掉了。什么!不要啦?是的,不要了。
为什么要把几个分量扔掉,难道不需要吗?其实不是不需要,只是我们的磁带装不 下那么多信息,于是就在采样的过程中,把一些色度信息剔除掉,从而把整体信息容量 减少,这样可使传输和处理都相对容易些。扔掉了色度信息,色彩不就失真了吗?是的, 失真是必然的,但如果能控制在可以接受且不易辨认的范围内就没有问题。可是为什么 不扔掉几个丫呢?因为丫作为亮度分量承载的是图像信息,简单地讲,它代表的是形状,如果形状信息扔了,图像就会变形;而色彩信息则没那么严重,即便全扔了还能看黑白电视,所以要牺牲只能牺牲色彩。可到时播放的时候,电视机仍然是需要RGB信 息啊,你把一部分色彩分量扔了,到时你拿什么转换回RGB给电视机?这个问题不着 急,现在我们才刚开始编码呢,到后面解码的时候自有办法。
仔细看一下采样后的4个像素,Y都在有4个,U剩2个,V剩2个。我们就把这 样的采样叫做4:2:2采样,意思就是“Y比U比V”的比例。你可以回头看前面那张图, 知道怎么叫了吧,对了,那就是传说中的4:4:4采样。4:4:4采样就是什么东西都没扔, 因此是最保真的,当然,需要的信息存储空间也是最大的。
怎么样,这个所谓的采样很容易理解吧。因为采样扔的都是色度信息,所以也被称 作“色度采样"或“色彩采样"。色度采样是视频格式中的重要部分,在每个视频格式的参 数中必然有该格式所使用的采样,而且都是“丫: U: V”的写法。采样大都以4个像素作 为一个采样单位,而且丫都是不扔的,所以基本都是“4: X: X”这样的形式。
注意,这个“色度采样”和前面的''CCD采样率”是不一样的。色度采样是对色 彩的处理,而CCD采样率是“拾取” CCD上的图像信息。
好,我们来看4:1:1采样。如图,经采样后,4个像素只剩下了 1个U分量和1个 V分量,因此就叫4:1:1。呵,够狠的,色度信息一下被扔掉了 3/4。是啊,NTSC制式 的DV就是这种采样。那我们PAL制的DV据说是4:2:0采样,是不是比他们的N制的 强呢?我们就接着看4:2:0采样,一会儿就知道答案了。
4:2:0采样比前面三种复杂点,但也不难理解。看图,4:2:0采样按2排共8个像素 作为1个采样单位。我们知道采样的关键就是怎么扔色度信息。先看第1排,U分量扔 掉2个,V分量全扔;再看第2排,U分量全扔,V分量扔掉2个。扔完之后,我们单 看第1排,可以叫它4:2:0;单看第2排,可以叫它4:0:2;如果我们两排一起看,可以 叫它8:2:2,对吧。为了和其他的采样形式在名称上统一,这种采样就用第1排的4:2:0 来代表了。因此,也容易造成误解,从字面看仿佛V分量都扔光了。
这就是我们PAL制DV采用的色度采样,它和4:1:1 一样,都扔掉了 3/4的色度信 息,因此没有哪个更好,很遗憾,难兄难弟而已。从色度采样我就能知道,为什么我们 DV的色彩比不了电视台的大摄像机,色彩都采成这样了,能''出彩”吗。
下表是一些常见的视频格式的采样
从表中可以看出,现在流行的HDV采用的也是4:2:0色度采样,和DV是一样的。 也就是说,HDV在色彩上的表现并不会比DV强太多。在一些测试中,DVCPRO HD 的色彩表现要明显好于HDV,原因就是DVCPRO HD是4:2:2采样。
③ 压缩
编码器完成色度采样之后,形成的编码对于磁带而言依然太大了。有没有搞错?都 采成这样了还大啊!没办法,视频就这样。采样完的1帧DV画面(720x576)有约600KB 大小,1秒15MB, 1分钟将近1GB (一张DVD容量4.7GB);而一盘60分钟的DV 磁带容量才13GB,不压缩往哪放啊。如图,采样后的视频码流被送进一个“榨汁机”里
进行压缩,被榨成“脱水蔬菜”,这样就好装进“罐头”里了。
针对不同的“罐头”尺寸和“蔬菜”种类,“榨汁机”的种类和“压榨力度”也不一样。有 些罐头容量比较大,榨汁的力度就可以小点,榨出的蔬菜还带点水分;如果罐头比较小, 而蔬菜又比较多,那榨出来就是“菜干”了,就像方便面里那种。
所谓压缩,就是通过某种数据运算将画面中一些“冗余的”部分去除,在保证画面质 量的同时降低数据量。虽然理论上存在无损压缩,但无损压缩的数据量跟不压缩相差无 几。因此在实际应用中,我们使用的压缩都是有损压缩,意思就是,画面的质量是一定 会下降的,只是下降的幅度或多或少而已。
从''榨汁方法”来讲,视频压缩分两种:一种叫帧内压缩(Intraframe Compression), 另一种叫帧间压缩(Interframe Compression)。帧内压缩就是每帧自己压自己的,跟前 面和后面的帧都没有关系。帧间压缩就是根据某一帧前面和后面的帧进行压缩,如下图 所示,如果在连续几帧中,不变化的画面部分将作为“没用的”部分被去掉,只留下那些“有 用的”部分。
压缩方式是视频格式中的第三个重要部分(前面两个是CCD扫描方式和色度采 样)。使用什么样的压缩方式,将直接影响视频格式的质量。在分析压缩前,我们先介 绍几个名词:
① I帧(Intra-frame),读作''挨针”。这个词在关于视频压缩的文章中经常出现,显得 很深奥的样子,其实,所谓I帧就是“关键帧”,意思就是这帧很关键。为什么关键呢? 因为这帧里包含了进行压缩所需要的全部信息。比如上面“帧间压缩”的第一个画面,就 是一个丨帧。
② GOP(Group of Pictures),有人翻译作“图片群”或“图片组”,我们直接读“居欧劈” 即可。GOP指的就是一组连续的帧,比如6帧GOP就是连续6帧画面,15帧GOP 就是连续15帧画面。很容易理解哈。
③ 短GOP(Short GOP),指只有一帧的GOP,而且这帧是I帧(“挨针”)。比如上 面图中“帧内压缩”的每个画面都是一个短GOP,即每帧都是I帧。短GOP的提法比较 少用,一般都是直接说I帧。
④ 长GOP(Long GOP),超过一帧的GOP,比如6帧GOP,15帧GOP。长GOP 习惯写作LGOP。通常来讲,如果提到GOP指的都是LGOP。
⑤ B 帧(Bi-direction frame)和 P 帧(Predicted frame),B 帧和 P 帧都是没有完整 画面信息的帧,它们只在帧间压缩中才会存在。比如上面图中“帧间压缩”的第二个画面。
好了,现在可以开讲压缩了。首先是帧内压 缩。帧内压缩就是以帧为单位进行压缩,每一帧 都是独立作业,帧之间不互相影响,因此帧内压 缩在很大程度上就相当于图片压缩,每一帧就是 一张图片。比如最常见的压缩方式M-JPEG,就 是JPEG图片压缩方式在视频压缩上的应用。由 于每帧是独立压缩,且每帧都是I帧,因此帧内 压缩也被称为T帧压缩”。DV格式使用的就是I帧压缩。
相对于帧内压缩而言,帧间压缩就复杂一些。首先,帧间压缩不是以帧为单位,而 是以LGOP为单位。意思就是说,帧间压缩不是一帧一帧地压,而是一组一组地压。如
图,这是一个典型的“15帧LGOP帧间压缩”。15帧作为一个LGOP,以一个I帧领头,
LGOP为单位进行压缩,因此又被称为“LGOP压缩”。HDV格式使用的“MPEG-2压缩”
就是一种LGOP压缩,索尼Z1使用的是“15帧LGOP压缩”,JVC HD100使用的是“6 帧LGOP压缩”。还有AVCHD的“MPEG-4压缩”和现在流行的“H.264压缩”都是LGOP 压缩。
I帧压缩(帧内)和LGOP压缩(帧间)的出发点是不一样。I帧压缩是根据每帧 的“画面内容”进行压缩,由于每帧独立,无论拍摄的是运动镜头还是固定镜头,对压缩 率并没有影响。LGOP压缩是根据“帧与帧之间的关系”进行压缩,如果是静止画面,I 帧后面的那些B帧和P帧几乎什么信息都可以不留;如果是运动画面,B帧和P帧只 需要保留那些变化的即可。如果用一句话来区分这两种压缩方式,可以说:T帧压缩是 静态压缩,LGOP压缩是动态压缩”。从算法理论上讲,这两种压缩方式并没有谁优谁
劣,只是方式不用而已。但从压缩率上讲,LGOP压缩的压缩率就比I帧压缩要高很多。
如图,I帧压缩后的4帧画面的容量大约可以 装得下LGOP压缩后的15帧画面。这就是为什 么HDV画面可以装进DV磁带里的原因,压得 跟DV 一样小了,当然就可以装进去了。也正因 为这样丄GOP压缩在视频传输领域被广泛应用, 数字电视网信号、DVD、HD DVD、蓝光DVD(Blue-ray disc)、以及常见的网络流媒体
(WMVs DivX、MP4.....)都是使用 LGOP 压缩。
但是,即使是同一种压缩方式里,也有不同的压缩率和压缩质量,比如同是MPEG-2 压缩,DVD的压缩率就比HDV要高很多,但质量就比不了 HDV;你可以理解成“榨汁 力度”不同,DVD是''浓缩型”,HDV是''原汁型”。
至于说装“菜干”的“罐头”是磁带、硬盘、光盘、还是存储卡,并不重要,这些都只 是存储介质而已,就像“罐头”是铁罐还是玻璃罐一样。重要的是我们前面讲的三样东西: 扫描方式、色度采样、压缩。这三样保证了,放进瓦罐还是玻璃罐都无所谓。
色度采样的比较我们前面讲了,4:2:2保留的色彩信息比4:2:0要多,因此必然比 4:2:0要好。但压缩怎么比呢,两种压缩方式使用的是不同的压缩原理。是的,在理论 上的确不好比,但我们可以从它们在实际应用的表现,也就是解码(Decoding)之后的画 面质量来对比,这就是后面的内容了。
下表是一些视频格式的关键指标:
表中”码流”指的是记录的数据流量,单位Mb/s,就是兆比特每秒。这里注意 一下,b*B,小b是比特,大B是字节,8比特=1字节,即8b=1B。数据传输一般 用比特(小b)做单位,而电脑文件用字节(大B)做单位,比如一张CD有700MB, 一张DVD有4.7GB。DV的码流25Mb/s,大约是每秒3.6MB。
从表中可以看出,即使相同的压缩方式,“压榨力度”不同,获得的数据量也是不 —样的。
讲到这里,视频格式在摄像机里面的事情就讲完了。怎么样,还能跟上节奏吗。