[Video and Audio Data Processing] 图像的表示方法：RGB模型 vs YUV模型

最新推荐文章于 2022-05-04 21:33:17 发布

1byte ≠ 8bit

最新推荐文章于 2022-05-04 21:33:17 发布

阅读量747

点赞数 1

分类专栏：视音频数据处理

原文链接：https://vcb-s.nmm-hd.org/Twilight%20Council/%5BVCB-Studio%5D%5B教程00%5D视频格式基础知识/%5BVCB-Studio%5D%5B教程00%5D视频格式基础知识.pdf

版权

视音频数据处理专栏收录该内容

22 篇文章 5 订阅

订阅专栏

0. YUV模型介绍

光的三原色是红(Red)、绿(Green)、蓝(Blue)。现代的显示器技术就是通过组合不同强度的三原色，来达成任何一种可见光的颜色。图像储存中，通过记录每个像素红绿蓝强度，来记录图像的方法，称为RGB模型 (RGB Model)

常见的图片格式中，PNG和BMP这两种就是基于RGB模型的。

比如说原图：

在这里插入图片描述
分别只显示R G B通道的强度，效果如下：

在这里插入图片描述

三个通道下，信息量和细节程度不一定是均匀分布的。比如说可以注意南小鸟脸上的红晕，在3个平面上的区分程度就不同——红色平面下几乎无从区分，造成区别的主要是绿色和蓝色的平面。外围白色的脸颊，三色都近乎饱和；但是红晕部分，只有红色饱和，绿色和蓝色不饱和。这是造成红色凸显的原因。

除了RGB模型，还有一种广泛采用的模型，称为YUV模型，又被称为亮度-色度模型（Luma-Chroma）。它是通过数学转换，将RGB三个通道，转换为一个代表亮度的通道(Luma)，和两个代表色度的通道(并成为Chroma)。

举个形象点的例子：一家养殖场饲养猪和牛，一种记数方式是：（猪的数量，牛的数量）
但是也可以这么记录：（总数量=猪的数量+牛的数量，相差=猪的数量-牛的数量）。两种方法之间有公式可以互转。

YUV模型干的是类似的事儿。通过对RGB数据的合理转换，得到另一种表示方式。YUV模型下，还有不同的实现方式。举个用的比较多的YCbCr模型：它把RGB转换成一个亮度(Y)，和蓝色色度(Cb) 以及红色色度(Cr)。转换背后复杂的公式大家不需要了解，只需要看看效果：

只有亮度通道：

在这里插入图片描述
只有蓝色色度：

在这里插入图片描述
只有红色色度：

在这里插入图片描述
在图像视频的加工与储存中，YUV格式一般更受欢迎，理由如下：

0.1、人眼对亮度的敏感度远高于色度，因此人眼看到的有效信息主要来自于亮度。YUV模型可以将绝大多数的有效信息分配到Y通道。UV通道相对记录的信息少的多。相对于RGB模型较为平均的分配，YUV模型将多数有效信息集中在Y通道，不但减少了冗余信息量，还为压缩提供了便利

0.2、保持了对黑白显示设备的向下兼容

0.3、图像编辑中，调节亮度和颜色饱和度，在YUV模型下更方便。

几乎所有的视频格式，以及广泛使用的JPEG图像格式，都是基于YCbCr模型的。播放的时候，播放器需要将YCbCr的信息转换为RGB。这个步骤称为渲染（Rendering）

每个通道的记录，通常是用整数来表示。比如RGB24，就是RGB各8个bit，用0~255 (8bit的二进制数范围)来表示某个颜色的强弱。YUV模型也不例外，也是用整数来表示每个通道的高低。

1. 色深

色深(bit-depth)，就是我们通常说的8bit和10bit，是指每个通道的精度。8bit就是每个通道用一个8bit整数(0_{255)代表，10bit就是用10bit整数(0}1023)来显示。16bit则是0~65535

你的显示器是8bit的，代表它能显示RGB每个通道0~255所有强度。但是视频的色深是YUV的色深，播放的时候，YUV需要通过计算转换到RGB。因此，10bit的高精度是间接的，它使得运算过程中精度增加，以让最后的颜色更细腻。

如何理解8bit显示器，播放10bit是有必要的呢：

一个圆的半径是12.33m, 求它的面积，保留两位小数。
半径的精度给定两位小数，结果也要求两位小数，那么圆周率精度需要给多高呢？也只要两位小数么？
取pi=3.14, 面积算出来是477.37平方米
取pi=3.1416，面积算出来是477.61平方米
取pi精度足够高，面积算出来是477.61平方米。所以取pi=3.1416是足够的，但是3.14就不够了。

换言之，即便最终输出的精度要求较低，也不意味着参与运算的数字，以及运算过程，可以保持较低的精度。在最终输出是8bit RGB的前提下，10bit YUV比起8bit YUV依旧具有精度优势的原因就在这里。事实上，8bit YUV转换后，覆盖的精度大概相当于8bit RGB的26%，而10bit转换后的精度大约可以覆盖97%——你想让你家8bit显示器发挥97%的细腻度么？看10bit吧。

8bit精度不足，主要表现在亮度较低的区域，容易形成色带：

在这里插入图片描述
注意这图右边那一圈圈跟波浪一样的效果。这就是颜色精度不足的表现。如果你看的是pdf版本，你还应该可以注意到左边背景那网格状的效果，那也是精度不足造成的颜色过渡不自然。

10bit的优势不只在于显示精度的提高，在提高视频压缩率，减少失真方面，相对8bit也有优势。这方面就不展开了。

2. 色度半采样

2.1 420采样

在YUV模型的应用中，Y和UV的重要性是不等同的。图像视频的实际储存和传输中，通常将Y以全分辨率记录，UV以减半甚至1/4的分辨率记录。这个手段被称为色度半采样(Chroma Sub-Sampling)。色度半采样可以有效减少传输带宽，和加大UV平面的压缩率。

我们平常的视频，最常见的是420采样。这种采样是Y保留全部，UV只以(1/2) x (1/2)的分辨率记录。比如说1920x1080的视频，其实只有亮度平面是1920x1080。两个色度平面都只有960x540的分辨率。

2.2 444采样

当然了，你也可以选择不做缩减。这种称为444采样。YUV三个平面全是满分辨率。

在做YUV->RGB的时候，首先需要将UV分辨率拉升到Y的分辨率（madVR中允许自定义算法，在Chroma Upscaling当中），然后再转换到RGB。做RGB->YUV的转换，也是先转换到444，再将UV分辨率降低。

一般能拿到的片源，包括所有蓝光原盘，都是420采样的。所以成品一般也保留420采样。（除非需要在444/RGB平面下做处理，这样成品有必要保留444采样）

3.空间上的低频与高频：平面，纹理和线条

在视频处理中，空间(spatial)的概念指的是一帧图片以内。跟时间(temporal)相对；时间的概念就强调帧与帧之间的变换。

于是我们重新来看这张亮度的图：

在这里插入图片描述

亮度变化较快，变动幅度大的区域，我们称之为高频区域。否则，亮度变化缓慢且不明显的区域，我们称为低频区域。

图中的蓝圈就是一块典型的低频区域。亮度几乎没有变化
绿圈中，亮度呈现跳跃式的突变，通常是一般亮度较高，但是线条部分的一排像素亮度明显低于周围，这种高频区域我们称之为线条。
红圈中，亮度频繁变化，幅度有高有低，这种高频区域我们称为纹理。

有时候，线条和纹理统称为线条，平面又叫做非线条。

这是亮度平面。色度平面，高频低频，线条等概念也同样适用，就是描述色度变化的快慢轻重。一般我们所谓的“细节”，就是指图像中的高频信息。

一般来说，一张图的高频信息越多，意味着这张图信息量越大，所需要记录的数据量就越多，编码所需要的运算量也越大。如果一个视频包含的空间性高频信息很多（通俗点说就是每一帧内细节很多），意味着这个视频的空间复杂度很高。

记录一张图片，编码器需要决定给怎样的部分多少码率。码率在一张图内不同部分的分配，叫做码率的空间分配。分配较好的时候，往往整幅图目视观感比较统一；分配不好常见的后果，就是线条纹理尚可；背景平面区域出现大量色带色块；或者背景颜色过渡自然，纹理模糊，线条烂掉。

4. 时间上的低频与高频：动态

在视频处理中，时间(temporal)的概念强调帧与帧之间的变换。跟空间(spatial)相对。

动态的概念无需多解释；就是帧与帧之间图像变化的强弱，变化频率的高低。一段视频如果动态很高，变化剧烈，我们称为时间复杂度较高，时域上的高频信息多。否则如果视频本身舒缓多静态，我们称为时间复杂度低，时域上的低频信息多。

一般来说，一段视频的时域高频信息多，动态的信息量就大，所需要记录的数据量就越多，编码所需要的运算量也越大。但是另一方面，人眼对高速变化的场景，敏感度不如静态的图片来的高（你没有时间去仔细观察细节），所以动态场景的优先度可以低于静态场景。如何权衡以上两点去分配码率，被称为码率的时间分配。分配较好的时候，看视频无论动态还是静态效果都较好；分配不好的时候往往是静态部分看着还行，动态部分糊烂掉；或者动态部分效果过分的好，浪费了大量码率，造成静态部分欠码，瑕疵明显。

转载链接：

https://vcb-s.nmm-hd.org/Twilight%20Council/%5BVCB-Studio%5D%5B%E6%95%99%E7%A8%8B00%5D%E8%A7%86%E9%A2%91%E6%A0%BC%E5%BC%8F%E5%9F%BA%E7%A1%80%E7%9F%A5%E8%AF%86/%5BVCB-Studio%5D%5B%E6%95%99%E7%A8%8B00%5D%E8%A7%86%E9%A2%91%E6%A0%BC%E5%BC%8F%E5%9F%BA%E7%A1%80%E7%9F%A5%E8%AF%86.pdf

1byte ≠ 8bit

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[Video and Audio Data Processing] 图像的表示方法：RGB模型 vs YUV模型

0. YUV模型介绍光的三原色是红(Red)、绿(Green)、蓝(Blue)。现代的显示器技术就是通过组合不同强度的三原色，来达成任何一种可见光的颜色。图像储存中，通过记录每个像素红绿蓝强度，来记录图像的方法，称为RGB模型 (RGB Model)常见的图片格式中，PNG和BMP这两种就是基于RGB模型的。比如说原图：分别只显示R G B通道的强度，效果如下：三个通道下，信息量和细节程度不一定是均匀分布的。比如说可以注意南小鸟脸上的红晕，在3个平面上的区分程度就不同——红色平面下几乎无从
复制链接

扫一扫

专栏目录