BT.601和BT.656

最新推荐文章于 2022-10-17 16:28:46 发布

Mr_Wing5

最新推荐文章于 2022-10-17 16:28:46 发布

阅读量2.2w

点赞数 19

分类专栏： Video 文章标签： BT.656

Video 专栏收录该内容

7 篇文章

订阅专栏

BT601和BT656

在日常的工作中我们常听到BT601（CCIR601）和BT656的说法，另外老一点的文档可能还会提到CCIR601，CCIR656的说法，今天就对这两个概念做简单说明。

首先说明一下ITU-R BT601/656和CCIR601/656的前世今生，CCIR (Consultative Committee of International Radio，国际无线电咨询委员会) 是国际无线电咨询委员会的简称。成立于1927年，是国际电信联盟（ITU）的常设机构之一。主要职责是研究无线电通信和技术业务问题，并对这类问题通过建议书。从1993年3月1日起，与国际频率登记委员会（IFRB）合并，成为现今国际电信联盟（ITU）无线电通信部门，简称ITU-R。之后更新的CCIR601/656建议书就正式更名为ITU-R
BT601和ITU-R BT656。后文中我们就不做另外说明，统一用BT601和BT656来指代。

前面已经介绍了模拟视频的标准和格式，但是模拟电视存在着许多难以克服的缺陷：多次传输或复制后会形成噪声积累，信号的线性、非线性失真，亮色互扰，行间闪烁，爬行，微分相位和微分增益失真等等，致使图像质量不断下降。但这些缺陷大多可通过将模拟信号转变为数字信号进行处理、存储、控制和传输来解决。为了用数字处理和传输电视信号，首先要将模拟电视信号数字化，即对电视信号进行抽样、量化和编码。

在ITU-R关于数字电视的BT.601建议中，从电视广播的角度阐明了如何对数字电视信号进行编码。该标准支持两种色彩空间，最简单明了的是RGB红绿蓝色彩空间。这种色彩空间非常直观，但是色彩通道之间的关系非常复杂，因此，并不适于进行视频压缩。每个像素都有三个色彩值，红、绿、蓝，视频格式中的数值暗示了这三个值。例如，RGB888格式就表示红色分量、绿色分量和蓝色分量各占8位。RGB666格式则表示每个像素中的这三个色彩分量各占6位，而565格式则表示，红色分量和蓝色分量各占5位，而绿色分量占6位。RGB色彩空间在PC电脑显示器为基础的Graphic显示中比较常用。

目前，在数字电视及数字视频中，最常用的、也是BT.601建议中首选的色彩空间是YCbCr色彩空间。其中，Y表示亮度分量，Cr或Cb表示色度分量。这些值是根据RGB值计算出的，相互独立，也就是说，比RGB信号更适于进行压缩。这也正是众多制造商纷纷选择采用这种色彩空间，BT.601建议也推选它的主要原因之一。

YCbCr颜色空间和它的变换(通常写为YUV)是一种流行而高效的表示一个颜色图像的方法。Y是亮度值，由R,G,B的加权平均可以得到：Y=kr*R +kg*G + kb*B; 这里kr,kb,kg是加权因子。kr + kb + kg =1

颜色信号可以由不同的颜色差别来表示：

Cb= B-Y; Cr =R-Y; Cg = G-Y

对于一个颜色图像的完整的描述由给定Y和三个色差:
Cb, Cr, Cg 来表示。然后Cb+Cr+Cg是一个常数，那么我们只需要两个色度参数就可以了，第三个可以通过其他两个计算出来。在YCbCr空间中，只有Y和Cb,Cr值被传输和存储，而且Cb和Cr的分辨率可以比Y低，因为人类视觉系统对于亮度更加敏感。这就减少了表示图像的数据量。通常的观察情况下，RGB和YCbCr表示的图像看上去没有什么不同。对于色度采用比亮度低的分辨率进行采样是一种简单而有效的压缩办法。

一个RGB图像可以在捕捉之后转换为YCbCr格式用来减少存储和传输负担。在显示图象之前，再转回为RGB。注意没有必要去指明分别的加权值kg（因为kb+kr+kg=1)，而且G可以从YCbCr中解压出来，这说明不需要存储和传输Cg参数。

Y = krR + (1-kb-kr)G + kb B

Cb = 0.5/(1-kb) * (B-Y)

Cr = 0.5/(1-kr) * (R-Y)

则：

R = Y + (1-kr)/0.5 * Cr

G = Y - 2kb(1-kb)/(1-kb-kr) * Cb-2kr(1-kr)/(1-kb-kr) * Cr

B = Y + (1-kb)/0.5 * Cb

而ITU-R的BT.601决议定义了kb=0.114, kr=0.299，那么代换参数就有了如下等式：

Y = 0.299R + 0.587G + 0.114B

Cb = 0.564(B - Y )

Cr = 0.713(R - Y )

即

Y = 0.299R + 0.587G + 0.114B

Cb = (-0.1687R - 0.3313G + 0.500B)

Cr = (0.500R - 0.4187G - 0.0813B)

则：

R = Y + 1.402Cr

G = Y - 0.344Cb - 0.714Cr

B = Y + 1.772Cb

对Cb和Cr加上偏置，就得到 BT601的色空间转换公式：

Y = 0.299R + 0.587G + 0.114B

Cb = (-0.1687R - 0.3313G + 0.500B)+ 128

Cr = (0.500R - 0.4187G - 0.0813B) +128

ITU-R BT.601建议主要针对表示525行或625行隔行扫描数字电视图像的像素特征，规定了视频信号数字编码方法，包括针对宽高比为4∶3和16∶9图像的13.5MHz采样率，这两种图像代表了当前传输制式所需的足够性能。

国际电联无线电通信全会，考虑到

a）电视广播公司和节目制作商在数字演播室标准中的明显优势，数字演播室标准拥有525行和625行系统通用的最大数目的有效参数值；

b）全世界兼容的数字方法将允许开发具备许多共同特点的设备，允许运行的经济性，并促进节目的国际交流；

c）期望一个可扩展的兼容数字编码标准族。该标准族中的成员可能与不同质量等级、不同的宽高比相对应，有助于当前生产技术所需的额外处理，并满足未来需求；

d）基于部分编码的系统能够满足这些期望的目标；

e）表示亮度和色差信号YCbCr（或者，如果使用了RGB色空间，为红色、绿色和蓝色信号）的样本，有助于当前生产技术所需的对数字部分信号的处理，建议在那些使用525行系统和使用625行系统的国家中，将BT601内容用作电视演播室数字编码标准的基础。

f) ITU-R BT．601建议的实际实施要求规定接口和通过接口的数据流的细节；

g) 这些接口在525行和625行两种制式间应该具有最大的共同性；

h) 在ITU-RBT．601建议的实际实施中，希望对接口的串行和并行两种形式都作出规定；

BT.601建议中明确规定，4:2:2YCbCr是适用于电视广播应用的色彩空间。这就意味着，要对色度值进行二次取样，每个像素一个亮度值，一个色度值（Cr或Cb）。BT.601建议支持对色彩空间分量值进行8位或10位量化。BT.601建议的最终结果是将NTSC和PAL制式标准化为每行包含相同数量的有效像素，即720个有效像素。由于PAL信号的刷新率为50场/秒，而NTSC信号的刷新率则为60场/秒，所以通过在PAL信号中添加扫描行，实现了帧刷新率的标准化。

抽样频率的选择

电视信号数字化抽样频率的选择首先应满足奈奎斯特抽样定理，即抽样频率至少要等于视频带宽的两倍。对于数字分量编码,BT601建议亮度抽样频率为525/60和625/50三大制式行频公倍数2.25MHz的6倍，即13.5MHz。对现行电视制式而言，亮度信号的最大带宽是6MHz，13.5MHz> （2×6MHz=12MHz），所以它符合奈奎斯特定理。而色差信号的带宽比亮度信号窄得多，所以在分量编码时两个色差信号的抽样频率可以低一些。

因同时考虑到抽样的样点结构应满足正交结构要求，两个色差信号的抽样频率均选为亮度信号抽样频率的一半，即6.75MHz，这样亮度信号与两个色差信号的抽样频率之比为4∶2∶2。

2．数字分量视频信号有效行取样点数的确定

每行数字分量信号的取样点数为：

对于625行/50场制式（PAL/SECAM）：每行亮度取样点为13.5Mhz/15625Hz=864点/行；每行每个色度取样点为6.75Mhz/15625Hz=432点/行。
对于525行/60场制式(NTSC)：每行亮度取样点为13.5Mhz/15734.266Hz=858点/行；每行每色度取样点为6.75Mhz/15734Hz=429点/行。

可见，这两种制式选用了相同的抽样频率，但每行取样点数却不相同。所以把两者取样点数之差别放在数字有效行以外的部分，而使每个数字有效行内的取样点数相同。BT601建议两种制式有效行内的取样点数亮度信号取720个，两个色差信号各取360个，即每个数字视频的有效行包括720个亮度数据和720个色度数据 (两个色度各360个),这样就统一了数字分量编码标准，使三种不同制式便于转换和统一。所以有效行亮度信号与两个色差信号的取样点数之比也为4:2:2(720:360:360)。

上述两点即为获取高质量的后期制作由BT 601建议所确定的数字分量编码标准：

亮度信号的抽样频率为13.5MHz，每个色差信号的抽样频率为6.75MHz，其抽样频率之比为4:2:2,或者说，每数字有效行亮度信号的取样点数是720个，每个色差信号的取样点数是360个，其取样点数之比也为4:2:2，这就是数字分量编码的4:2:2标准，也称为4:2:2格式。用作演播室数字设备及其联接或国际节目交换时的数字化标准。

除了标准的4:2:2格式之外，还有将色差信号的抽样频率取为3.375MHz的较低标准的4:1:1和4:2:0格式。

另外还有为适合更高图像质量要求而将色差信号抽样频率取为13.5MHz的更高标准的4:4:4格式。

与数字视频应用相关的基本定时信号是Hsync，即水平同步信号。该信号标定了一个视频帧的每一个扫描行（从左至右）的有效视频信号起点。Vsync是垂直同步信号，从上到下标定了一个新的视频帧的起点。场是交织视频独有的信号，表示当前显示的场是视频帧的奇场还是偶场。在逐行扫描系统中，并不需要使用场信号。最后，是用于所有像素分量的数据时钟信号。

数据量：BT 601规定，每个样本点都按8位数字化，也即有256个等级。但实际上亮度信号占220级，色度信号占225级，其它位作同步、编码等控制用。那么如果按fs = 13.5Mhz的采样率、4：2：2的格式采样，则数字视频的数据量为：

13.5(MHz)×8(bit)＋2×6.75(MHz)×8(bit)= 27Mbyte / s

同样可以算出，如果按4：4：4的方式采样，数字视频的数据量为每秒40兆字节！按每秒27兆字节的数据率计算，一段10秒钟的数字视频要占用270兆字节的存储空间。按此数据率，一张680兆字节容量的光盘只能记录约25秒的数字视频数据信息，其每秒27兆字节数据传输率也远远超过了当时计算机和网络的传输能力，视频数据将无法实时回放。这种未压缩的数字视频数据量对于当时的计算机和网络来说无论是存储或传输都是不现实的，因此，在多媒体中应用数字视频的关键问题是数字视频的压缩技术。

现在，大家已经初步了解了BT.601建议，下面，我们将讨论数字视频实现的第二层——ITU-R发布的BT.656建议。基本上，这个建议是对BT.601建议的补充，定义了实现BT.601建议所必须的物理接口和数据流。或者严格地来说，ITU-RBT.656应该是隶属ITU-R BT.601的一个子协议。ITU-R BT.601是演播室数字电视编码参数标准，而ITU-R BT.656 则是ITU-R BT.601附件A中的数字接口标准，用于主要数字视频设备(包括芯片)之间采用27Mhz并口或243Mbps串行接口的数字传输接口标准。

该建议定义了位并行和位串行两种模式，下面十个简单的对比说明。因为位并行模式是业界主流的应用模式，今天我们仅详细介绍位并行模式。

位并行模式

只需要27MHz的时钟（在NTSC 30 帧/s条件下）以及8或10条连线（具体取决于像素的分辨率）。所有的同步化信号都嵌入到数据流中，因此无需额外添加硬件连线。

位串行模式

只需要在单个通道上传输一路复用化的10bit/像素串行数据流，不过它需要运用复杂的同步化、频谱整形和时钟恢复调理等技术手段。此外，其位时钟速率接近300MHz，因此要在很多系统中实施基于采用串行位形式的BT.656是极富挑战性的任务。

BT.656并行接口除了传输4:2:2的YCbCr视频数据流外，还有行、列同步所用的控制信号。对于NTSC和PAL制式信号，该建议规定，额定时钟频率为27MHz，取决于广播系统的分辨率，数据行为8或10。656建议的最大优点是，数据流中包含了我们刚刚讨论的所有同步信号。因此，应用只需要实现数据流和时钟信号。

BT 656建议既可支持隔行视频，又可支持逐行扫描视频。656输出的视频数据，行场同步信号嵌入在数据流中；601是并行数据，行场同步有单独输出;
656只是数据传输接口而已，可以说是作为601的一个传输方式。

ITU-R BT.601， 16位数据传输；YCbCr (YUV) 信号同时传输，是并行数据，行场同步单独输出。

ITU-R BT.656， 8/10位数据传输；不需要同步信号；串行数据传输；传输速率是601的2倍；每个像素，先传CbCr（UV），后传Y。行场同步信号嵌入在数据流中。

ITU-R BT.656包含三部分

1：视频信号，8/10位数据传输；

2：定时基准信号：

有两个定时基准信号，一个在每个视频数据块的开始时(Start of Active Video，SAV)，另一个在每个视频数据块的结束(End of Active Video，EAV)；每个定时基准信号由4个字的序列组成，格式如下：FF 00 00 XY （16进制）头三个是固定前缀，第4个字包含定义第二场标识、场消隐状态和行消隐状态的信息。

3：辅助信号：

辅助数据信号可以以10 比特形式只在行消隐期间传送，还可以以8 比特形式只在场消隐中的行的有效期间传送。

上图显示的就是符合656建议规定的NTSC制式和PAL制式的视频流。为了方便理解，我们先看下面的图来理解一帧（或者一场）图像的有效数据区。对于一帧视频图像，有视频帧消隐区和行消隐区，除去这部分之后就是有效视频数据。

上图我们看到视频中的某一帧的状态。L1和L2 是帧消隐区，同样 L5 和 L6也是帧消隐区。

656建议对信号的规定非常直白，H代表水平同步信号，V代表垂直同步信号，F代表场信号。从图中可以看出，H位标定了水平消隐区域。当H值为1时，表示EAV，即有效视频信号结束。当H值为0时，表示SAV，即有效视频信号开始。同样地，当V值从1变为0时，则表明信号从帧（或者场）消隐区域，变为有效视频区域。对于场信号，也同样是以F值的1、0变化，表明场1和场2的转换。我们先前提过，数据流中除了视频数据，还包含控制代码（定时基准信号SAV/EAV）。在本例中，这个8位视频分量的数据流快照中，SAV/EAV最前面的几个字节是“FF 00 00”。这是与控制代码相关的前同步码，用于通知终端设备，即将收到控制代码。紧接着，就是“XY”控制代码，负责告知终端设备，H值、V值或F值是否变化，此外，还有一些用于纠错的校验和位，具体的定义数据格式，我们稍后详细讨论。之后，如果是扫描行的起点，则会有一长串按“80
10 8010”顺序标定的水平消隐区域（辅助信号区域）。接下来，又是另一个前同步码，告知系统H值为0，即将收到SAV，即有效视频信号开始。然后，将收到整个视频扫描行——720个有效像素，等于1440字节。最后是EAV，即有效视频信号结束，开始接收下一个扫描行。

一帧PAL制式的视频图像数据由一个625行、每行1728字节（1440
有效视频字节＋288字节的控制信号）的数据块组成。其中，23～311行是偶数场视频数据，336～624行是奇数场视频数据，其余为垂直控制信号。每行数据包含水平控制信号和YCbCr视频数据信号。视频数据信号排列顺序为Cb-Y-Cr-Y。每行开始的288字节为行控制信号，开始的4字节为EAV信号(有效视频结束)，紧接着280个固定填充数据，最后是4字节的SAV信号(有效视频起始)。在下面的BT656视频流示意图中，对这部分做了详细标示。标识D部分标识720个有效像素，即1440个字节周期；标识C表示除EAV之外的行控制信号周期，为284字节，加上EAV的4字节，共288字节；标识E表示完整的一行为1440＋288=1728字节；

而对于NTSC制式的一帧视频图像信号，有效像素也是720个，即1440个字节周期，行控制信号周期为276个字节，完整的一行为1440＋276=1716字节；

具体的时序如下图所示：

下面介绍视频定时基准码(SAV,EAV)，有两个定时基准信号，一个在每个视频数据块的开始(Start of ActiveVideo，SAV)，另一个在每个视频数据块的结束(End of Active Video，EAV)。每个定时基准信号由4个字的序列组成，格式为FF
00 00 XY (数值以16进制表示)。头三个字节FF 00 00是固定前缀，第4
个字节XY包含定义了场标识、场消隐状态和行消隐状态的信息。

定时基准信号内的比特分配如下图所示：

上图给出的数值是为10 比特接口的建议值。如果是8比特的系统取高八位就可以了。

第4字节XY中：

F是奇偶场标志，F=0/1 对应第1/2 场；
V表示场同步，V=0/1 表示对应有效行/场消隐行；
H是行同步信号，H=0/1 对应行有效视频开始处(SAV)/行有效视频结束处(EAV)；
P0，P1，P2，P3：保护比特，P0，P1，P2，P3 比特的状态决定于F，V 比特的状态，在接收机中，这种安排容许纠正l
比特误码和检出2
比特误码。具体逻辑如下：

P3 = V xor H

P2 = F xor H

P1 = F xor V

P0 = F xor V xor H

结果参考下表：

F和V比特值的变化对应的行数见下表：

下表则是所有的定时基准码以及对应的位置：

以NTSC为例，下面是一个详细的一帧图像的基准码变化示意图：

如是PAL制式，则参考下图：

在实际的使用中，有的视频处理芯片要求16bit的视频数据线，但是还是内嵌同步（EAV/SAV）的模式，这种模式按照BT656的规范，严格来说不是BT656模式，但是在使用中，习惯上页称为YUV 16bit 656模式；或者说，这个模式和BT1120规范类似。下图是16bit和8bit线宽下转换的示意图。