视频编解码之学之前你得知道的事情

最新推荐文章于 2022-06-01 12:07:25 发布

Snail_Walker

最新推荐文章于 2022-06-01 12:07:25 发布

阅读量2k

点赞数

分类专栏： Video Coding & Image Pro 文章标签：视频编解码 h-264 基础知识

本文链接：https://blog.csdn.net/c602273091/article/details/45249231

版权

Video Coding & Image Pro 专栏收录该内容

32 篇文章 13 订阅

订阅专栏

人类视觉系统

结构

人的视觉系统可以说是精妙。人眼工作时，物体反射的光线通过眼角膜，折射入前房，最后在水晶透镜聚焦作用下经过玻璃体成像在黄斑区。视网膜就可以感受不同强度的光刺激。在视网膜上有两种细胞：黄斑区中央凹周围的是锥体细胞，主要是感应白天的视觉信息，可以辨别色彩和光的强弱，有比较高的分辨率。明视觉细胞。杆状细胞：暗视觉细胞。主要是晚上的视觉分辨率低。在两种细胞的交界处，那么就存在盲点。另外需要注意的是，由于视神经没有那么大的带宽传输全部信息，必须进行预处理。进行图像压缩之类的操作。

处理

在图像处理方面也就是信息获取、传输、处理、分析功能。主要是识别物体的亮度、形状、颜色、三维物体的深度信息、物体的位置以及运动参数。在视神经的抑制作用下，会有视觉马赫带现象，有图像增强的效果提高图像反差的效果。在大脑视觉皮层中，简单型细胞完成图像的明暗边界及线条的位置和方向检测；复杂的细胞检测直线运动的边界和方向。低级超复杂性细胞对长度，宽度敏感；高级超复杂细胞可以检测曲线和边缘曲度等等；超复杂型细胞检测物体的纹理边界。利用双目视觉可以得到空间距离和深度信息。

颜色模型

RGB

颜色的3个视觉特征就是：亮度、色调、饱和度。
亮度就是色彩相对明暗程度，由物体的反射系数决定。
色调就是颜色最基本的属性，决定颜色的基本特征，由物体反射光线中占优势的波长决定。
饱和度就是彩色的深浅和纯洁程度。

由R、G、B三种基本颜色构成，3种分量都需要相同的带宽，相互还会干扰，不好处理。一般用于电视机，显示器等设备。

HSI

H（色调）、S（饱和度）、I（亮度）。这种方式反映了人类视觉系统对颜色的感知方式，使得3个分量相互独立可以分开处理。相连接得更详细，请点：HSI
RGB转HSI公式：http://www.th7.cn/Program/c/201304/133151.shtml

CMY

一般在彩色打印机中使用。它与RGB得转换公式为： http://baike.baidu.com/link?url=oTrRQf8QQJSnPVapawxfFN8jJtUv8WViKeMlluDZdv2aQxeTH6SY7fJ2LZY5887Sf4SVo6lF4nHwVHdgKqD0e_ 还有就是在弄黑色得时候一般要加入黑色作为基本色才能产生纯正的黑色。

YUV

YUV是PAL和SECAM电视制式采用的颜色模型。Y（亮度），U（色调：Cr），V（饱和度：Cb）。
YUV采样格式有：YCrCb：4:2:0，4:2:2，4:1:1，4:4:4。
4:2:2 -> 就是抽样率之比。比如：Y0，U0， Y1，V1，Y2，U2，Y3，V3。
下面的四个像素为：[Y0 U0 V0] [Y1 U1 V1] [Y2 U2 V2] [Y3 U3 V3]
存放的码流为：Y0 U0 Y1 V1 Y2 U2 Y3 V3
映射出像素点为：[Y0 U0 V1] [Y1 U0 V1] [Y2 U2 V3] [Y3 U2 V3]
4:1:1
4:1:1的色度抽样，是在水平方向上对色度进行4:1抽样。对于低端用户和消费类产品这仍然是可以接受的。对非压缩的8比特量化的视频来说，每个由4个水平方向相邻的像素组成的宏像素需要占用6字节内存。
下面的四个像素为: [Y0 U0 V0] [Y1 U1 V1] [Y2 U2 V2] [Y3 U3 V3]
存放的码流为: Y0 U0 Y1 Y2 V2 Y3
映射出像素点为：[Y0 U0 V2] [Y1 U0 V2] [Y2 U0 V2] [Y3 U0 V2]
4:2:0
4:2:0并不意味着只有Y，Cb而没有Cr分量。它指得是对每行扫描线来说，只有一种色度分量以2:1的抽样率存储。相邻的扫描行存储不同的色度分量，也就是说，如果一行是4:2:0的话，下一行就是4:0:2，再下一行是4:2:0…以此类推。对每个色度分量来说，水平方向和竖直方向的抽样率都是2:1，所以可以说色度的抽样率是4:1。对非压缩的8比特量化的视频来说，每个由2x2个2行2列相邻的像素组成的宏像素需要占用6字节内存。
下面八个像素为：[Y0 U0 V0] [Y1 U1 V1] [Y2 U2 V2] [Y3 U3 V3]
[Y5 U5 V5] [Y6 U6 V6] [Y7U7 V7] [Y8 U8 V8]
存放的码流为：Y0 U0 Y1 Y2 U2 Y3 Y5 V5 Y6 Y7 V7 Y8
映射出的像素点为：[Y0 U0 V5] [Y1 U0 V5] [Y2 U2 V7] [Y3 U2 V7]
[Y5 U0 V5] [Y6 U0 V5] [Y7U2 V7] [Y8 U2 V7]
YUV与RGB得转换公式：http://baike.baidu.com/view/189685.htm

计算机视觉系统

整个过程大概就是：
视频输入（A/D转换） -> 视频采集卡（D/A转换）-> 处理 -> 图像显示（显示接口卡：显卡。集成显卡，核心显卡，独立显卡） -> 屏幕显示器（图像离开CPU之后，进入GPU处理，接着存到显存再进行数模转换，最后显示到显示屏）

采集信息

计算机视觉系统包括视频输入模块，数据传输模块，视频数据处理模块。

可见光与红外摄像
磁共振摄像
X射线摄像
超声波

处理

图像的数字化

信号数字化传感器分为：CCD、CMOS、CIS。实现光电转换，采样和量化等功能。
CCD效果好，贵。用于电视、宇航、导弹制导、机器人等。
CMOS比CCD便宜，用在手机上很多。
CIS：原理类似于CCD，但是适用于分辨率低，不能用于高分辨率的扫描仪制作。

视频压缩编码

建立在香农的信息论基础之上，分为有损失真和无失真两种。目前流行的有：国际电信联盟的H.261, H.263,H.262,H.264,H.265等。运动静止图像专家组的M-JPEG和国际化组织运动图像专家组的MPEG标准，微软的WMV以及RealVideo。
编码主要就是去除冗余信息：空域与时域。主要技术就是帧内图像压缩技术，帧间图像压缩技术（运动补偿，运动表示，运动估计），熵编码压缩技术。

图像预处理

对图像进行平滑（除噪，去除高频部分。采用插值，线性平滑，卷积法），复原（模糊的图像清晰化。逆滤波，最小二乘滤波），增强对比度（全彩色增强与伪彩色增强。突出图像中的感兴趣部分。采用灰度对比变换，直方图修正，彩色增强处理）。

成像

三维重建

数字视频

基本概念

数字视频：通常借助计算机或微处理芯片的高速运算，通过不同的格式标准，实现对包含图像、语音、文本在内的多媒体数字信号的存储、处理、传输和再现的技术和过程。

视频质量：一是图像的逼真度。即被评价图像与原图的偏离程度；二是图像的可懂度。即图像能向人或者机器提供信息的能力。

视频冗余信息：

空间上，视频文件的相邻像素之间存在较强的空间相关性。也就是帧内冗余。
时间上，相邻帧之间也具有很大的相关性。连续帧之间的背景和移动物体都大致相同，不同的只是移动物体的位置。也就是帧间冗余。
统计学上，像素的分布概率不同，也就是统计冗余。
人类视觉上，人眼对于不同信息的敏感程度也有所不同。也就是视觉冗余。

各种标准

H.261

用于视频会议，主要是ISDN网络传输。对CIF和QCIF格式的视频进行编码。采用宏块16*16的亮度抽样值和两个相应的8*8的色度抽样值。采样混合编码架构，通过基于运动补偿的帧间预测、基于离散余弦变换的空域变换编码、量化、zig-zag扫描和熵编码。这里的东西到后面也是在用的，是具有里程碑一样的意义。

MPEG-1标准

用在VCD上的主要压缩标准。采用了动态补偿图像帧间预测和离散余弦变换来处理动态图像。

MPEG-2/H.262标准

这个标准运用在蓝光光盘和HDTV传输系统中，是DVD产品的核心技术。提供隔行扫描视频显示模式的支持。当然MPEG-2解码器可以正常播放MPEG-1视频流。

H.263

在低码流的时候可以提供较好的图像效果，而且有一定的纠错能力。

MPEG-4标准

扩充了对虚拟现实模型语言（VRML）、面向对象的合成文件（包括音效、视频、VRML对象）以及数字版权管理和其他交互功能的支持。它是第一个有交互性的动态图像标准。可以从多媒体库获取所需的内容，还有超链接，索引等等。支持对同时发生的数据流进行编码，使得一个场景的多视角或多声道数据流同步合成最终数据流。

H.264标准

也叫做MPEG-4的第十部分。就是AVC。具有很高的数据压缩比例。H264标准各主要部分有Access Unit delimiter（访问单元分割符），SEI（附加增强信息），primary coded picture（基本图像编码），Redundant Coded Picture（冗余图像编码）。还有Instantaneous Decoding Refresh（IDR，即时解码刷新）、Hypothetical Reference Decoder（HRD，假想参考解码）、Hypothetical Stream Scheduler（HSS，假想码流调度器）。
参考：http://baike.baidu.com/view/56322.htm

H.265标准

也就是HEVC。H.265旨在在有限带宽下传输更高质量的网络视频，仅需原先的一半带宽即可播放相同质量的视频。这也意味着，我们的智能手机、平板机等移动设备将能够直接在线播放1080p的全高清视频。H.265标准也同时支持4K(4096×2160)和8K(8192×4320)超高清视频。可以说，H.265标准让网络视频跟上了显示屏“高分辨率化”的脚步。
参考：http://baike.baidu.com/view/1163108.htm

视频标准测试

目前多采用双刺激连续质量标度方法，简称DSCQ测试方法。一个采用基准图像，一个是压缩解码后的图像，即测试图像。接着观察者进行评分，这就是主观测量方法。当然，还有方法是双刺激损伤评价法（DSIS）和单刺激法（SSM）等多种方法。但是主观方法局限性很大，不是很稳定。所以很多时候采用客观测量方法：峰值信噪比（PSNR）。

这里写图片描述