FFmpeg从入门到入魔(3):提取MP4中的H.264和AAC

本文详细介绍了MP4格式的解析,包括ftyp、moov和mdat Box的结构。在MP4中,H.264和AAC码流没有起始码,FFmpeg提供了`h264_mp4toannexb`过滤器将MP4的H.264流转换为annexb格式,以提取关键帧。同时,文章还讨论了如何处理AVPacket并保存H.264和AAC到本地文件。
摘要由CSDN通过智能技术生成

    最近在开发中遇到了一个问题,即无法提取到MP4中H264流的关键帧进行处理,且保存到本地的AAC音频也无法正常播放。经过调试分析发现,这是由于解封装MP4得到的H264和AAC是ES流,它们缺失解码时必要的起始码/SPS/PPSadts头

1. MP4格式解析

1.1 MP4简介

 MP4封装格式是基于QuickTime容器格式定义,媒体描述与媒体数据分开,目前被广泛应用于封装h.264视频和aac音频,是高清视频/HDV的代表。MP4文件中所有数据都封装在Box中(d对应QuickTime中的atom),即MP4文件是由若干个Box组成,每个Box有长度和类型,每个Box中还可以包含另外的子Box,因此,这种包含子Box的也可被称为container Box。Box的基本结构如下图所示:

 从上图可知,Box的基本结构由两部分组成:BoxHeaderBoxDataBoxHeadersizetypelargesize(由size的值确定是否存在)组成,它们分别占4bytes、4bytes、8bytes,其中,size表示的是整个Box的大小(BoxHeader+BoxData),假如Box的大小超过了uint32的最大值,size会被置为1,这时将由largesize来表示Box的大小。type表示Box的类型,主要有ftyp、moov、mdat等。largesize表示当size=1时,用它代替size来存储Box的大小;BoxData存储的是真实数据(不一定是音视频数据),大小由真实数据决定。

【腾讯文档】FFmpegWebRTCRTMPRTSPHLSRTP播放器-音视频流媒体高级开发-资料领取
https://docs.qq.com/doc/DYU5ORlBOdkpCUkNxicon-default.png?t=M85Bhttps://docs.qq.com/doc/DYU5ORlBOdkpCUkNx


 

1.2 MP4结构分析

 Box是构成MP4文件的基本单元,一个MP4文件由若干个Box组成,且每个Box中还可以包括另外的子Box。MP4格式结构中包括三个最顶层的Box,即ftypmoovmdat,其中,ftyp是整个MP4文件的第一个Box,也是唯一的一个,它主要用于确定当前文件的类型(比如MP4);moov保存了视频的基本信息,比如时间信息、trak信息以及媒体索引等;mdat保存视频和音频数据。需要注意的是,moov Box和mdat Box在文件中出现的顺序不是固定的,但是ftyp Box必须是第一个出现。

 当然,我们也可以使用MP4Info软件打开一个MP4文件来观察MP4的结构。从下图可以看到,该软件不仅能够看到MP4文件的Box结构,还列出了音频数据的格式(mp4a)、采样率、通道数量、比特率和视频的格式(AVC1)、宽高、比特率、帧率等信息。需要注意的是,由于录制设备的不同,生成的MP4文件可能会包含类型为free的Box,这类Box通常出现在moov于mdata之间,它的数据通常为全0,其作用相当于占位符,在实时拍摄视频时随着moov类型数据的增多会分配给moov使用,如果没有free预留的空间,则需要不停的向后移动mdat数据以腾出更更多的空间给moov。

  • ftype box

 ftyp就是一个由四个字符组成的码字,用来标识编码类型、兼容性或者媒体文件的用途,它存在于MP4文件和MOV文件中,当然也存在于3GP文件中。因此,在MP4文件中,ftyp类型Box被放在文件的最开始,用于标志文件类型为MP4,这类Box在文件中有且只有一个。我们利用WinHex工具打开一个MP4文件,就可以看到ftyp Box的具体细节,如下图所示:

 根据Box的基本结构可知,Box由BoxHeader和BoxData构成,其中,BoxHeader又由size、type以及largesize(可选)组成。由上图可以知道,ftyp Box头部信息为0x00 00 00 18 66 74 79 70,其中,0x00 00 00 18这四个字节表示ftyp Box整个Box的大小size=24字节;0x66 74 79 70表示该Box为ftyp类型,它们组成了ftyp的头部。0x6D 70 34 32(十六进制)表示major brand,这里为"mp42"且不同的文件该值可能不一样;0x00 00 00 00表示minor version。

  • moov box

 moov类型box主要用于存储媒体的时间信息、trak信息和媒体索引等信息。从MP4Info软件打开的文件可知,moov Box是紧接着ftyp Box的,因此,该Box头部为0x00 00 28 D1 6D 6F 6F 76,其中,0x00 00 28 D1表示整个moov Box的大小size=10449字节,0x6D 6F 6F 76表示当前Box为moov类型,而剩下的字节数据即为BoxData。另外,moov Box还包含了mvhd

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值