FFmpeg视频解码中的YUV420P格式

最新推荐文章于 2023-09-20 16:03:02 发布

ericbars

最新推荐文章于 2023-09-20 16:03:02 发布

阅读量3w

点赞数 21

分类专栏：音视频技术文章标签： YUV420P FFmpeg AVFrame linesize YCbCr

音视频技术专栏收录该内容

6 篇文章

订阅专栏

参考文章

在做基于FFmpeg解码的视频播放时，需要涉及到帧数据存储的YUV与RGB格式，所以了解了一下，参考下述博文。
https://blog.csdn.net/lanxiaziyi/article/details/74139729#avframe-%E4%B8%8E-yuv420%E9%82%A3%E4%BA%9B%E4%BA%8B

发展史

视网膜存在三种视锥细胞，分别含有对红、绿、蓝三种光线敏感的视色素，当一定波长的光线作用于视网膜时，以一定的比例使三种视锥细胞分别产生不同程度的兴奋，这样的信息传至中枢，就产生某一种颜色的感觉。
在彩色显示器发明之前，人类已经懂得使用三原色光调配出所有颜色的光。并不是说三原色混合后产生了新的频率的光，而是给人眼睛的感觉是这样。
在显示器发明之后，从黑白显示器发展到彩色显示器，人们开始使用发出不同颜色的光的荧光粉（CRT，等离子体显示器），或者不同颜色的滤色片（LCD），或者不同颜色的半导体发光器件（OLED和LED大型全彩显示牌）来形成色彩，无一例外的选择了Red,Green,Blue这3种颜色的发光体作为基本的发光单元。通过控制他们发光强度，组合出了人眼睛能够感受到的大多数的自然色彩。

RGB与YUV

先说说RGB，这个格式很直观。我们一眼就能明白它所表示的意义。
RGB格式一般画面数据最终呈现的时候才会使用它。对于视频捕获和编解码等应用来讲，这样的表示方式数据量太大了。需要想办法在不太影响感觉的情况下，对原始数据的表示方法进行更改，减少数据量。只要最终能呈现的是RGB，我们中间使用什么格式都无所谓。于是我们使用Y,Cb,Cr模型来表示颜色。
为什么电视行业用这个格式？
YUV，分为三个分量，“Y”表示明亮度（Luminance或Luma），也就是灰度值；而“U”和“V” 表示的则是色度（Chrominance或Chroma），作用是描述影像色彩及饱和度，用于指定像素的颜色。与我们熟知的RGB类似，YUV也是一种颜色编码方法，主要用于电视系统以及模拟视频领域，它将亮度信息（Y）与色彩信息（UV）分离，没有UV信息一样可以显示完整的图像，只不过是黑白的，这样的设计很好地解决了彩色电视机与黑白电视的兼容问题。并且，YUV不像RGB那样要求三个独立的视频信号同时传输，所以用YUV方式传送占用极少的频宽。

YUV格式的优势

空间占用少。
RGB24一帧的大小size＝width×heigth×3 Byte
RGB32一帧的大小size＝width×heigth×4 Byte
YUV420一帧的大小size=width×heigth×1.5 Byte
（这是在内存中展开的大小）
如前所述，能与黑白电视机兼容。

不同格式采样方式

下面三个图表示不同格式的Y，U，V采样方式，以黑点表示采样该像素点的Y分量，以空心圆圈表示采用该像素点的UV分量。

1. YUV 4:4:4采样，每一个Y对应一组UV分量。
2. YUV 4:2:2采样，每两个Y共用一组UV分量。
3. YUV 4:2:0采样，每四个Y共用一组UV分量。

YUV存储方式

请参考如下文章：
http://www.cnblogs.com/azraelly/archive/2013/01/01/2841269.html

YUV和RGB间的转换

应用：模拟领域

Y’= 0.299*R’ + 0.587*G’ + 0.114*B’ 
U’= -0.147*R’ - 0.289*G’ + 0.436*B’ = 0.492*(B’- Y’) 
V’= 0.615*R’ - 0.515*G’ - 0.100*B’ = 0.877*(R’- Y’) 

R’ = Y’ + 1.140*V’ 
G’ = Y’ - 0.394*U’ - 0.581*V’ 
B’ = Y’ + 2.032*U’

YCbCr模型来源于YUV模型。YCbCr是 YUV 颜色空间的偏移版本.
应用：数字视频，ITU-R BT.601建议

Y’ = 0.257*R’ + 0.504*G’ + 0.098*B’ + 16 
Cb’ = -0.148*R’ - 0.291*G’ + 0.439*B’ + 128 
Cr’ = 0.439*R’ - 0.368*G’ - 0.071*B’ + 128 

R’ = 1.164*(Y’-16) + 1.596*(Cr’-128) 
G’ = 1.164*(Y’-16) - 0.813*(Cr’-128) - 0.392*(Cb’-128) 
B’ = 1.164*(Y’-16) + 2.017*(Cb’-128)

上面各个符号都带了一撇，表示该符号在原值基础上进行了伽马校正,伽马校正有助于弥补在抗锯齿的过程中，线性分配伽马值所带来的细节损失，使图像细节更加丰富。在没有采用伽马校正的情况下，暗部细节不容易显现出来，而采用了这一图像增强技术以后，图像的层次更加明晰了。 H264里面的YUV应属于YCbCr。

FFmpeg中的YUV格式

FFmpeg视频解码后，一般存储为AV_PIX_FMT_YUV420P 的format，而解码后的数据存储在结构体 AVFrame 中。YUV420P在内存中的排布如下：

YYYYYYYY UUUU VVVV

下面是我们编程时关心的重点，YUV420P在AVFrame中的存储形式，

planar YUV 4:2:0, 12bpp, (1 Cr & Cb sample per 2x2 Y samples)

即存储在结构体 AVFrame 的data[ ]数组中，
data[0]——-Y分量
data[1]——-U分量
data[2]——-V分量
linesize[]数组中保存的是对应通道的数据宽度，
linesize[0]——-Y分量的宽度
linesize[1]——-U分量的宽度
linesize[2]——-V分量的宽度
这里要特别注意，linesize[0]的值并不一定等于图片的宽度，有时候为了对齐各解码器的CPU，实际尺寸会大于图片的宽度，这点在我们编程时（比如OpengGL硬件转换/渲染）要特别注意，否则解码出来的图像会异常。