ffmpeg解封、解码实战

响箭零零一

已于 2023-01-31 20:46:51 修改

阅读量562

点赞数

分类专栏： FFmpeg实践文章标签： ffmpeg 视频编解码

于 2023-01-31 20:45:02 首次发布

本文链接：https://blog.csdn.net/qq_38731735/article/details/127587877

版权

FFmpeg实践专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1 概述

在这里插入图片描述

2 解封装相关函数接口

avformat_alloc_context();负责申请一个AVFormatContext结构的内存,并进行简单初始化
avformat_free_context();释放该结构里的所有东西以及该结构本身
avformat_close_input();关闭解复用器。
avformat_open_input();打开输入视频文件
avformat_find_stream_info()：获取视频文件信息
av_read_frame(); 读取音视频包
avformat_seek_file(); 定位文件
av_seek_frame():定位文件

3 解封装流程

在这里插入图片描述

如何区分不同的媒体类型，这里FFmpeg中采用AVMediaType定义。

enum AVMediaType {
    AVMEDIA_TYPE_UNKNOWN = -1,  ///< Usually treated as AVMEDIA_TYPE_DATA
    AVMEDIA_TYPE_VIDEO,
    AVMEDIA_TYPE_AUDIO,
    AVMEDIA_TYPE_DATA,          ///< Opaque data information usually continuous
    AVMEDIA_TYPE_SUBTITLE,
    AVMEDIA_TYPE_ATTACHMENT,    ///< Opaque data information usually sparse
    AVMEDIA_TYPE_NB
};

4 解封装AAC音频

4.1 AAC简介

AAC⾳频格式：Advanced Audio Coding(⾼级⾳频解码)，是⼀种由MPEG-4标准定义的有损⾳频压缩格式，由Fraunhofer发展，Dolby, Sony和AT&T是主要的贡献者。
ADIF：Audio Data Interchange Format ⾳频数据交换格式。这种格式的特征是可以确定的找到这个⾳频数据的开始，不需进⾏在⾳频数据流中间开始的解码，即它的解码必须在明确定义的开始处进⾏。故这种格式常⽤在磁盘⽂件中。
ADTS：全称是Audio Data Transport Stream。是AAC⾳频的传输流格式。AAC⾳频格式在MPEG-2（ISO-13318-7 2003）中有定义。AAC后来⼜被采⽤到MPEG-4标准中。这种格式的特征是它是⼀个有同步字的⽐特流，解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。在实时通信中主要使用ADTS格式进行数据传输。

4.2 AAC协议格式

ADTS格式的⾳频流。两者具体的组织结构如下所示：
• AAC的ADIF格式见下图：
在这里插入图片描述
• AAC的ADTS的⼀般格式见下图，空⽩处表示前后帧：

经验：开发过程中编码AAC裸流的时候，会遇到写出来的AAC⽂件并不能在PC和⼿机上播放，很⼤的可能就是AAC⽂件的每⼀帧⾥缺少了ADTS头信息⽂件的包装拼接。只需要加⼊头⽂件ADTS即可。⼀个AAC原始数据块⻓度是可变的，对原始帧加上ADTS头进⾏ADTS的封装，就形成了ADTS帧。

4.3 ADTS头解析

AAC⾳频⽂件的每⼀帧由ADTS Header和AAC Audio Data组成。结构体如图：
在这里插入图片描述
每⼀帧的ADTS的头文件都包含了音频的采样率，声道，帧长度等信息，这样解码器才能解析读取。
⼀般情况下ADTS的头信息都是7个字节，分为2部分：
adts_fixed_header();
adts_variable_header();
其⼀为固定头信息，紧接着是可变头信息。固定头信息中的数据每⼀帧都相同，⽽可变头信息则在帧与帧之间可变。

4.3.1 固定头协议信息

在这里插入图片描述
syncword ：同步头总是0xFFF, all bits must be 1，代表着⼀个ADTS帧的开始
ID：MPEG标识符，0标识MPEG-4，1标识MPEG-2
Layer：always: ‘00’
protection_absent：表示是否误码校验。Warning, set to 1 if there is noCRC and 0 if there is CRC
profile：表示使⽤哪个级别的AAC，如01 Low Complexity(LC)— AAC LC。有些芯⽚只⽀持AAC LC 。
在MPEG-2 AAC中定义了3种：
在这里插入图片描述
profile的值等于 Audio Object Type的值减1
profile = MPEG-4 Audio Object Type - 1

sampling_frequency_index：表示使⽤的采样率下标，通过这个下标在Sampling Frequencies[ ]数组中查找得知采样率的值。
channel_configuration: 表示声道数，⽐如2表示⽴体声双声道
在这里插入图片描述

4.3.2 可变头协议信息

在这里插入图片描述
frame_length : ⼀个ADTS帧的⻓度包括ADTS头和AAC原始流.frame length, this value must include 7 or 9 bytes of header length:aac_frame_length = (protection_absent == 1 ? 7 : 9) + size(AACFrame)protection_absent=0时, header length=9bytesprotection_absent=1时, header length=7bytes
adts_buffer_fullness：0x7FF 说明是码率可变的码流。
number_of_raw_data_blocks_in_frame：表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧。所以说number_of_raw_data_blocks_in_frame == 0 表示说ADTS帧中有⼀个AAC数据块。

5 解封装H264视频

5.1 H264协议概述

H.264/AVC 标准于 2003 年首次发布。它建立在 MPEG-2 和 MPEG-4 Visual 等早期标准的概念之上，并提供了更好的压缩效率（即更好的压缩视频质量）和更大的灵活性的潜力用于压缩、传输和存储视频。在ITU的标准⾥称为H.264，在MPEG的标准⾥是MPEG-4的⼀个组成部分–MPEG-4 Part 10，⼜叫Advanced Video Codec，因此常常称为MPEG-4 AVC或直接叫AVC。

5.2 H264编码原理

在音视频传输过程中，视频文件的传输是一个极大的问题；一段分辨率为19201080，每个像素点为RGB占用3个字节，帧率是25的视频，对于传输带宽的要求是：19201080325/1024/1024=148.315MB/s，换成bps则意味着视频每秒带宽为1186.523Mbps，这样的速率对于网络存储是不可接受的。因此视频压缩和编码技术应运而生。
对于视频文件来说，视频由单张图片帧所组成，比如每秒25帧，但是图片帧的像素块之间存在相似性，因此视频帧图像可以进行图像压缩；H264采用了16*16的分块大小对，视频帧图像进行相似比较和压缩编码。如下图所示：
在这里插入图片描述

5.3 帧类型

H264中的I帧、P帧和B帧
H264使⽤帧内压缩和帧间压缩的⽅式提⾼编码压缩率；H264采⽤了独特的I帧、P帧和B帧策略来实现，连续帧之间的压缩；
在这里插入图片描述

帧的分类	全称	意义
I帧	帧内编码帧 intra picture	I 帧通常是每个 GOP（MPEG 所使⽤的⼀种视频压缩技术）的第⼀个帧，经过适度地压缩，做为随机访问的参考点，可以当成图象。I帧可以看成是⼀个图像经过压缩后的产物。⾃身可以通过视频解压算法解压成⼀张单独的完整的图⽚。
P帧	前向预测编码帧predictive-frame	通过充分将低于图像序列中前⾯已编码帧的时间冗余信息来压缩传输数据量的编码图像，也叫预测帧。需要参考其前⾯的⼀个I frame 或者P frame来⽣成⼀张完整的图⽚。
B帧	双向预测帧 bi-directional interpolated prediction frame	既考虑与源图像序列前⾯已编码帧，也顾及源图像序列后⾯已编码帧之间的时间冗余信息来压缩传输数据量的编码图像,也叫双向预测帧。则要参考其前⼀个I或者P帧及其后⾯的⼀个P帧来⽣成⼀张完整的图⽚。

压缩率 B > P > I

5.4 H264编码结构解析

H264除了实现了对视频的压缩处理之外，为了⽅便⽹络传输，提供了对应的视频编码和分⽚策略；类似于⽹络数据封装成IP帧，在H264中将其称为组(GOP, group of pictures)、⽚（slice）、宏块（Macroblock）这些⼀起组成了H264的码流分层结构；H264将其组织成为序列(GOP)、图⽚(pictrue)、⽚(Slice)、宏块(Macroblock)、⼦块(subblock)五个层次。GOP （图像组）主要⽤作形容⼀个IDR帧到下⼀个IDR帧之间的间隔了多少个帧。
在这里插入图片描述

5.5 IDR帧

⼀个序列的第⼀个图像叫做 IDR 图像Instantaneous Decoding Refresh（⽴即刷新图像），IDR 图像都是 I 帧图像。I和IDR帧都使⽤帧内预测。I帧不⽤参考任何帧，但是之后的P帧和B帧是有可能参考这个I帧之前的帧的。IDR就不允许这样。⽐如（解码的顺序）：
IDR1 P4 B2 B3 P7 B5 B6 I10 B8 B9 P13 B11 B12 P16 B14 B15 这⾥的B8可以跨过I10去参考P7
原始图像： IDR1 B2 B3 P4 B5 B6 P7 B8 B9 I10
IDR1 P4 B2 B3 P7 B5 B6 IDR8 P11 B9 B10 P14 B11 B12 这⾥的B9就只能参照IDR8和P11，不可以参考IDR8前⾯的帧
其核⼼作⽤是，是为了解码的重同步，当解码器解码到 IDR 图像时，⽴即将参考帧队列清空，将已解码的数据全部输出或抛弃，重新查找参数集，开始⼀个新的序列。这样，如果前⼀个序列出现重⼤错误，在这⾥可以获得重新同步的机会。IDR图像之后的图像永远不会使⽤IDR之前的图像的数据来解码。

在这里插入图片描述

5.6 NALU结构

在这里插入图片描述

5.7 NALU头部解析

在这里插入图片描述

类型	全称	中文说明
F(1bit)	禁⽌位forbidden_zero_bit	H.264 规范中规定了这⼀位必须为 0
R(2bit)	重要性指示位 bit nal_ref_idc	取00~11,似乎指示这个NALU的重要性,如00的NALU解码器可以丢弃它⽽不影响图像的回放，0～3，取值越⼤，表示当前NAL越重要，需要优先受到保护。如果当前NAL是属于参考帧的⽚，或是序列参数集，或是图像参数集这些重要的单位时，本句法元素必需⼤于0。
T(5bit)	负荷数据类型 nal_unit_type	这个NALU单元的类型,1～12由H.264使⽤，24～31由H.264以外的应⽤使⽤

NALU荷载类型：参考文档 H.264 : Advanced video coding for generic audiovisual services
• 5 IDR图像的编码条带
• 6 辅助增强信息 (SEI)
• 7 序列参数集(SPS)
• 8 图像参数集(PPS)
在这里插入图片描述