【音视频】编/解码 - 编码器底层原理学习顺序

darlingmz

已于 2022-03-30 17:35:28 修改

阅读量1.6k

点赞数

分类专栏：音视频文章标签：音视频

于 2022-03-28 17:35:48 首次发布

本文链接：https://blog.csdn.net/darlingmz/article/details/123797860

版权

音视频专栏收录该内容

16 篇文章 1 订阅

订阅专栏

# 目的：如何进行编码器的选择，在做编码效率测评的时候，需要去了解编码器的工作原理

# 简单知识储备

编码器类型：

H.264
H.265
微帧
底层编码器：opus、VP8、VP9、AV1 和 HEVC
ffmpeg开源库

音频编码 VS 音频解码
视频编码 VS 视频解码
编码器的各种帧（概念理解）：

I帧：关键帧。是自带全部信息的独立帧，是最完整的画面（占用的空间最大），无需参考其它图像便可独立进行解码。视频序列中的第一个帧，始终都是I帧。
I帧与IDR帧的区别：
P帧：“向前预测”。需要参考前面的I帧和/或P帧的不同部分，才能进行编码。P帧对前面的P和I参考帧有依赖性。但是，P帧压缩率比较高，占用的空间较小。
B帧：“双向预测”。以前帧后帧作为参考帧。不仅参考前面，还参考后面的帧，所以，它的压缩率最高，可以达到200:1。不过，因为依赖后面的帧，所以不适合实时传输（例如视频会议）。
对于I-帧，整幅图像直接进入编码过程。对于P-帧和B-帧，首先做运动补偿。
- 通常来说，由于相邻帧之间的相关性很强，宏块可以在前帧和后帧中对应相近的位置找到相似的区域匹配的比较好，这个偏移量作为运动向量被记录下来，运动估计重构的区域的误差被送到编码器中编码。
GOP是由固定模式的一系列I帧、P帧、B帧组成。常用的结构由15个帧组成，具有以下形式 IBBPBBPBBPBBPBB。GOP中各个帧的比例的选取和带宽、图像的质量要求有一定关系。
- 例如因为B帧的压缩时间可能是I帧的三倍，所以对于计算能力不强的某些实时系统，可能需要减少B帧的比例。
包比GOP的单位更小，单位多少个字节。GOP里包含I、P、B帧等

编码：压缩冗余分类。所谓编码算法，就是寻找规律，构建模型

空间冗余
时间冗余
图像构造冗余
视觉冗余
其他
对I帧的处理，是采用帧内编码方式，只利用本帧图像内的空间相关性。
对P帧的处理，采用帧间编码（前向运动估计），同时利用空间和时间上的相关性。简单来说，采用运动补偿(motion compensation)算法来去掉冗余信息。

编码器性能关注的指标

编码耗时
编码效率
采集帧率、编码后帧率、输入帧率

自研RTC项目使用的编码器

H.264
aac

音频编码格式
视频编码格式

RGB
YUV
像素点
高清视频的编码格式有五种，即H.264、MPEG-4、MPEG-2、WMA-HD以及VC-1
![在这里插入图片描述](https://img-blog.csdnimg.cn/f0e6b9aa078447589f33f9de0e7c3539.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAZGFybGluZ216,size_20,color_FFFFFF,t_70,g_se,x_16