Android直播开发之旅(17):使用FFmpeg提取MP4中的H264和AAC

本文详细介绍了MP4格式的解析,包括MP4的结构、Box分析以及H264码流的解析。重点讨论了如何使用FFmpeg的h264_mp4toannexb过滤器将MP4中的H264和AAC流提取并保存到本地文件,解决了关键帧提取和音频播放问题。
摘要由CSDN通过智能技术生成

最近在开发中遇到了一个问题,即无法提取到MP4中H264流的关键帧进行处理,且保存到本地的AAC音频也无法正常播放。经过调试分析发现,这是由于解封装MP4得到的H264和AAC是ES流,它们缺失解码时必要的起始码/SPS/PPSadts头。虽说在Android直播开发之旅(3):AAC编码格式分析与MP4文件封装一文中对MP4有过简单的介绍,但为了搞清楚这个问题的来龙去脉,本文的开始还是有必要进一步阐述MP4格式的封装规则,然后再给出解决上述问题的方案和实战案例。

1. MP4格式解析
1.1 MP4简介

 MP4封装格式是基于QuickTime容器格式定义,媒体描述与媒体数据分开,目前被广泛应用于封装h.264视频和aac音频,是高清视频/HDV的代表。MP4文件中所有数据都封装在Box中(d对应QuickTime中的atom),即MP4文件是由若干个Box组成,每个Box有长度和类型,每个Box中还可以包含另外的子Box,因此,这种包含子Box的也可被称为container Box。Box的基本结构如下图所示:

Box基本结构

 从上图可知,Box的基本结构由两部分组成:BoxHeaderBoxDataBoxHeadersizetypelargesize(由size的值确定是否存在)组成,它们分别占4bytes、4bytes、8bytes,其中,size表示的是整个Box的大小(BoxHeader+BoxData),假如Box的大小超过了uint32的最大值,size会被置为1,这时将由largesize来表示Box的大小。type表示Box的类型,主要有ftyp、moov、mdat等。largesize表示当size=1时,用它代替size来存储Box的大小;BoxData存储的是真实数据(不一定是音视频数据),大小由真实数据决定。

1.2 MP4结构分析

 Box是构成MP4文件的基本单元,一个MP4文件由若干个Box组成,且每个Box中还可以包括另外的子Box。MP4格式结构中包括三个最顶层的Box,即ftypmoovmdat,其中,ftyp是整个MP4文件的第一个Box,也是唯一的一个,它主要用于确定当前文件的类型(比如MP4);moov保存了视频的基本信息,比如时间信息、trak信息以及媒体索引等;mdat保存视频和音频数据。需要注意的是,moov Box和mdat Box在文件中出现的顺序不是固定的,但是ftyp Box必须是第一个出现。MP4文件的结构如下图所示:

 当然,我们也可以使用MP4Info软件打开一个MP4文件来观察MP4的结构。从下图可以看到,该软件不仅能够看到MP4文件的Box结构,还列出了音频数据的格式(mp4a)、采样率、通道数量、比特率和视频的格式(AVC1)、宽高、比特率、帧率等信息。需要注意的是,由于录制设备的不同,生成的MP4文件可能会包含类型为free的Box,这类Box通常出现在moov于mdata之间,它的数据通常为全0,其作用相当于占位符,在实时拍摄视频时随着moov类型数据的增多会分配给moov使用,如果没有free预留的空间,则需要不停的向后移动mdat数据以腾出更更多的空间给moov。
在这里插入图片描述

  • ftype box

 ftyp就是一个由四个字符组成的码字,用来标识编码类型、兼容性或者媒体文件的用途,它存在于MP4文件和MOV文件中,当然也存在于3GP文件中。因此,在MP4文件中,ftyp类型Box被放在文件的最开始,用于标志文件类型为MP4,这类Box在文件中有且只有一个。我们利用WinHex工具打开一个MP4文件,就可以看到ftyp Box的具体细节,如下图所示:
在这里插入图片描述

 根据Box的基本结构可知,Box由BoxHeader和BoxData构成,其中,BoxHeader又由size、type以及largesize(可选)组成。由上图可以知道,ftyp Box头部信息为0x00 00 00 18 66 74 79 70,其中,0x00 00 00 18这四个字节表示ftyp Box整个Box的大小size=24字节;0x66 74 79 70表示该Box为ftyp类型,它们组成了ftyp的头部。0x6D 70 34 32(十六进制)表示major brand,这里为"mp42"且不同的文件该值可能不一样;0x00 00 00 00表示minor version。

  • moov box

 moov类型box主要用于存储媒体的时间信息、trak信息和媒体索引等信息。从MP4Info软件打开的文件可知,moov Box是紧接着ftyp Box的,因此,该Box头部为0x00 00 28 D1 6D 6F 6F 76,其中,0x00 00 28 D1表示整个moov Box的大小size=10449字节,0x6D 6F 6F 76表示当前Box为moov类型,而剩下的字节数据即为BoxData。另外,moov Box还包含了mvhdtrak等类型子Box,其中,mvhd Box的类型标志为0x6D 76 68 64,该Box存储的是文件的总体信息,如时长、创建的时间等;trak Box的类型标志位0x74 72 61 6B,该类型的Box存储的是视频索引或者音频索引信息。moov box结构如下图所示:
在这里插入图片描述

 一般来说,解析媒体文件,最关心的部分是视频文件的宽高、时长、码率、编码格式、帧列表、关键帧列表,以及所对应的时戳和在文件中的位置,这些信息,在mp4中,是以特定的算法分开存放在stbl box下属的几个box中的,需要解析stbl下面所有的box,来还原媒体信息。下表是对于以上几个重要的box存放信息的说明

stbl box

  • mdat box

 mdata类型Box存储所有媒体数据,其类型标志位0x 6D 64 61 74。mdata中的媒体数据没有同步字,没有分隔符,只能根据索引(位于moov中)进行访问。mdat的位置比较灵活,可以位于moov之前,也可以位于moov之后,但必须和stbl中的信息保持一致。mdat Box的BoxHeader如下图所示:
在这里插入图片描述

1.3 MP4中的H.264码流分析

 在对MP4文件结构的分析中,我们可以知道MP4文件中所有的多媒体数据都是存储在mdata Box中,且mdata中的媒体数据没有同步字,没有分隔符,只能根据索引(位于moov中)进行访问,也就意味着mdata Box存储的H264码流和aac码流可能没有使用起始码(0x00 00 00 01或0x00 00 01)或adts头进行分割,这一点可以通过mp4info软件解析MP4文件得到其封装的音、视频数据格式为mp4aAVC1得到证实。根据H.264编码格式相关资料可知,H.264视频编码格式主要分为两种形式,即带起始码的H.264码流不带起始码的H.264码流,其中,前者就是我们比较熟悉的H264X264;后者就是指AVC1。H.264编码格式的media subtypes:
在这里插入图片描述
 **MP4容器格式存储H.264数据,没有开始代码。相反,每个NALU都以长度字段为前缀,以字节为单位给出NALU的长度。长度字段的大小可以不同,通常是1、2或4个字节。**另外,在标准H264中,SPS和PPS存在于NALU header中,而在MP4文件中,SPS和PPS存在于AVCDecoderConfigurationRecord结构中, 序列参数集SPS作用于一系列连续的编码图像,而图像参数集PPS作用于编码视频序列中一个或多个独立的图像。 如果解码器没能正确接收到这两个参数集,那么其他NALU 也是无法解码的。具体来说,MP4文件中H.264的SPS、PPS存储在avcC Box中(moov->trak->mdia->minf->stbl->stsd->avc1->avcC)。AVCDecoderConfigurationRecordj结构如下:
在这里插入图片描述
 从上图我们可知:

  • 0x00 00 00 2E:表示avcC Box的长度size,即占46个字节;
  • 0x61 76 63 43:为avcC Box的类型type标志,它与0x00 00 00 2E组成avcC Box的HeaderData;
  • 0x00 17:表示sps的长度,即占23字节;
  • 0x67 64 ... 80 01:sps的内容;
  • 0x00 04:表示pps的长度,即占4字节;
  • 0x68 EF BC B0:pps的内容;
2. 使用FFmpeg拆解MP4

 假如我们需要提取MP4中的H.264流保存到本地文件,这个本地文件应该是无法被解码播放的,因为保存的H.264文件没有SPS、PPS以及每个NALU缺少起始码。幸运的是,FFmpeg为我们提供了一个名为 h264_mp4toannexb过滤器,该过滤器实现了对SPS、PPS的提取和对起始码的添加。对于MP4文件来说,在FFmpeg中一个AVPacket可能包含一个或者多个NALU,比如sps、pps和I帧可能存在同一个NALU中,并且每个NALU前面是没有起始码的,取而代之的是表述该NALU长度信息,占4个字节。AVPacket.data结构如下:
在这里插入图片描述
2.1 h264_mp4toannexb过滤器

 FFmpeg提供了多种用于处理某些格式的封装转换bit stream过滤器,比如aac_adtstoasch264_mp4toannexb等,可以通过在源码中运行**./configure --list-bsfs**查看。本小节主要讲解如何使用h264_mp4toannexb过滤器将H264码流的MP4封装格式转换为annexb格式,即AVC1->H264。
在这里插入图片描述
(1)初始化h264_mp4toannexb过滤器

 该过程主要包括创建指定名称的过滤器AVBitStreamFilter为过滤器创建上下文结构体AVBSFContext复制上下文参数以及初始化AVBSFContext等操作。具体代码如下:

/** (1) 创建h264_mp4toannexb 比特流过滤器结构体AVBitStreamFilter
 *  声明位于../libavcodec/avcodec.h
 *  typedef struct AVBitStreamFilter {
 *       // 过滤器名称
 *       const char *name;
 *       // 过滤器支持的编码器ID列表
 *       const enum AVCodecID *codec_ids;
 *       const AVClass *priv_class;
 *       ...
 *   }
 * */
const AVBitStreamFilter *avBitStreamFilter = av_bsf_get_by_name("h264_mp4toannexb");
if(! avBitStreamFilter) {
   
    RLOG_E("get AVBitStreamFilter failed");
    return -1;
}
/** (2)创建给定过滤器上下文结构体AVBSFContext,该结构体存储了过滤器的状态
 *  声明在../libavcodec/avcodec.h
 *  typedef struct AVBSFContext {
 *       ...
 *       const struct AVBitStreamFilter *filter;
 *       // 输入输出流参数信息
 *       // 调用av_bsf_alloc()后被创建分配
 *       // 调用av_bsf_init()后被初始化
 *       AVCodecParameters *par_in;
 *       AVCodecParameters *par_out;
 *       // 输入输出packet的时间基
 *       // 在调用av_bsf_init()之前被设置
 *       AVRational time_base_in;
 *       AVRational time_base_out;
 *  }
 * */
ret = av_bsf_alloc(avBitStreamFilter, &avBSFContext);
if(ret < 0) {
   
    RLOG_E_("av_bsf_alloc failed,err = %d", ret);
    return ret;
}
/** (3) 拷贝输入流相关参数到过滤器的AVBSFContext*/
int ret = avcodec_parameters_copy(gavBSFContext->par_in,
                                  inputFormatCtx->streams[id_video_stream] ->codecpar);
if(ret < 0) {
   
    RLOG_E_("copy codec params to filter failed,err = %d", ret);
    return ret;
}
/**(4) 使过滤器进入准备状态。在所有参数被设置完毕后调用*/
ret = av_bsf_init(avBSFContext);
if(ret < 0) {
   
    RLOG_E_("Prepare the filter failed,err = %d", ret);
    return ret;
}

(2)处理AVPackt

 该过程主要是将解封装得到的H.264数据包AVPacket,通过av_bsf_send_packet函数提交给过滤器处理,待处理完毕后,再调用av_bsf_receive_packet读取处理后的数据。需要注意的是,输入一个packet可能会产生 多个输出packets,因此,我们可能需要反复调用av_bsf_receive_packet直到读取到所有的输出packets,即等待该函数返回0。具体代码如下:

/**(5) 将输入packet提交到过滤器处理*/
int ret = av_bsf_send_packet(avBSFContext, avPacket);
if(ret < 0) {
   
    av_packet_unref(avPacket);
    av_init_packet(avPacket);
    return ret;
}
/**(6) 循环读取过滤器,直到返回0标明读取完毕*/
for(;;) {
   
    int flags = av_bsf_receive_packet(avBSFContext, avPacket);
    if(flags == EAGAIN) {
   
        continue;
    } else<
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值