【基于libRTMP的流媒体直播之 AAC、H264 推送】

最新推荐文章于 2023-08-18 17:06:15 发布

mengzhengjie

最新推荐文章于 2023-08-18 17:06:15 发布

阅读量325

点赞数

分类专栏：流媒体 C

流媒体同时被 2 个专栏收录

207 篇文章

订阅专栏

28 篇文章

订阅专栏

http://billhoo.blog.51cto.com/2337751/1557646/

标签： FLV 直播 H264 RTMP AAC

原创作品，允许转载，转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。 http://billhoo.blog.51cto.com/2337751/1557646

这段时间在捣腾基于 RTMP 协议的流媒体直播框架，其间参考了众多博主的文章，剩下一些细节问题自行琢磨也算摸索出个门道，现将自己认为比较恼人的 AAC 音频帧的推送和解析、H264 码流的推送和解析以及网上没说清楚的地方分享给各位。

RTMP 协议栈的实现，Bill 直接使用的 libRTMP，关于 libRTMP 的编译、基本使用方法，以及简单的流媒体直播框架，请参见博文[C++实现RTMP协议发送H.264编码及AAC编码的音视频]，言简意赅，故不再赘述。

言归正传，我们首先来看看 AAC 以及 H264 的推送。

不论向 RTMP 服务器推送音频还是视频，都需要按照 FLV 的格式进行封包。因此，在我们向服务器推送第一个 AAC 或 H264 数据包之前，需要首先推送一个音频 Tag [AAC Sequence Header] 以下简称“音频同步包”，或者视频 Tag [AVC Sequence Header] 以下简称“视频同步包”。

AAC 音频帧的推送

我们首先来看看音频 Tag，根据 FLV 标准 Audio Tags 一节的描述：

我们可以将其简化并得到 AAC 音频同步包的格式如下：

音频同步包大小固定为 4 个字节。前两个字节被称为 [AACDecoderSpecificInfo]，用于描述这个音频包应当如何被解析。后两个字节称为 [AudioSpecificConfig]，更加详细的指定了音频格式。

[AACDecoderSpecificInfo] 俩字节可以直接使用 FAAC 库的 faacEncGetDecoderSpecificInfo 函数来获取，也可以根据自己的音频源进行计算。一般情况下，双声道，44kHz 采样率的 AAC 音频，其值为 0xAF00，示例代码：

根据 FLV 标准不难得知，[AACDecoderSpecificInfo] 第 1 个字节高 4 位 |1010| 代表音频数据编码类型为 AAC，接下来 2 位 |11| 表示采样率为 44kHz，接下来 1 位 |1| 表示采样点位数 16bit，最低 1 位 |1| 表示双声道。其第二个字节表示数据包类型，0 则为 AAC 音频同步包，1 则为普通 AAC 数据包。

音频同步包的后两个字节 [AudioSpecificConfig] 的结构，援引其他博主图如下：

我们只需参照上述结构计算出对应的值即可。至此，4 个字节的音频同步包组装完毕，便可推送至 RTMP 服务器，示例代码如下：

网上有博主说音频采样率小于等于 44100 时 SamplingFrequencyIndex 应当选择 3（48kHz），Bill 测试发现采样率等于 44100 时设置标记为 3 或 4 均能正常推送并在客户端播放，不过我们还是应当按照标准规定的行事，故此处的 SamplingFrequencyIndex 选 4。

完成音频同步包的推送后，我们便可向服务器推送普通的 AAC 数据包，推送数据包时，[AACDecoderSpecificInfo] 则变为 0xAF01，向服务器说明这个包是普通 AAC 数据包。后面的数据为 AAC 原始数据去掉前 7 个字节（若存在 CRC 校验，则去掉前 9 个字节），我们同样以一张简化的表格加以阐释：

推送普通 AAC 数据包的示例代码：

至此，我们便完成了 AAC 音频的推送流程。此时可尝试使用 VLC 或其他支持 RTMP 协议的播放器连接到服务器测试正在直播的 AAC 音频流。

H264 码流的推送

前面提到过，向 RTMP 服务器发送 H264 码流，需要按照 FLV 格式进行封包，并且首先需要发送视频同步包 [AVC Sequence Header]。我们依旧先阅读 FLV 标准 Video Tags 一节：

由于视频同步包前半部分比较简单易懂，仔细阅读上述标准便可明白如何操作，故 Bill 不另作图阐释。由上图可知，我们的视频同步包 FrameType == 1，CodecID == 7，VideoData == AVCVIDEOPACKET，继续展开 AVCVIDEOPACKET，我们可以得到 AVCPacketType == 0x00，CompositionTime == 0x000000，Data == AVCDecoderConfigurationRecord。

因此构造视频同步包的关键点便是构造 AVCDecoderConfigurationRecord。同样，我们援引其他博主的图片来阐释这个结构的细节：

其中需要额外计算的是 H264 码流的 Sps 以及 Pps，这两个关键数据可以在开始编码 H264 的时候提取出来并加以保存，在需要时直接使用即可。具体做法请读者自行 Google 或参见参考博文[2]，在此不再赘述。

当我们得到本次 H264 码流的 Sps 以及 Pps 的相关信息后，我们便可以完成视频同步包的组装，示例代码如下：

至此，视频同步包便构造完毕并推送给 RTMP 服务器。接下来只需要将普通 H264 码流稍加封装便可实现 H264 直播，下面我们来看一下普通视频包的组装过程。

回顾 FLV 标准的 Video Tags 一节，我们可以得到 H264 普通数据包的封包信息，FrameType == （H264 I 帧 ? 1 : 2），CodecID == 7，VideoData == AVCVIDEOPACKET，继续展开，我们可以得到 AVCPacketType == 0x01，CompositionTime 此处仍然设置为 0x000000，具体原因 TODO(billhoo)，Data == H264 NALU Size + NALU Raw Data。