FFmpeg学习3：播放音频

最新推荐文章于 2024-07-17 11:31:03 发布

BrookIcv

最新推荐文章于 2024-07-17 11:31:03 发布

阅读量2.5k

点赞数

分类专栏： FFmpeg FFmpeg学习文章标签： ffmpeg

本文链接：https://blog.csdn.net/BrookIcv/article/details/52295077

版权

本文详细介绍了如何使用FFmpeg解码音频数据，并结合SDL2进行播放。内容涵盖了音频基础知识，如采样率、通道和比特率，以及SDL2音频播放的流程，包括SDL_AudioSpec结构体、回调函数和打开音频设备。此外，还讨论了数据队列在处理音频数据中的作用，以及解码音频和格式转换的过程。

摘要由CSDN通过智能技术生成

参考dranger tutorial，本文将介绍如何使用FFmpeg解码音频数据，并使用SDL将解码后的数据输出。
本文主要包含以下几方面的内容：
* 关于播放音频的需要的一些基础知识介绍
* 使用SDL2播放音频
* 数据队列
* 音频格式的转换

dranger tutorial确实入门FFmpeg比较好的教程，虽然作者在2015年的时候根据新版本的FFmpeg更新了，

但是其中还是有不少API过时了。特别是,教程中使用的是SDL1.0，和现在的SDL2的API也有很大的不同，并且不能兼容。

1. 关于音频的一些基础知识

和视频一样，音频数据也会被打包到一个容器中，其文件的扩展名并不是其编码的方法，只是其打包文件的格式。
现实世界中，我们所听到的声音是一个个连续的波形，但是计算机无法存储和处理这种拥有无限点的波形数据。所以通过重采样，按照一定的
频率（1秒采集多少个点），将有无限个点的连续波形数据转换为有有限个点的离散数据，这就是通常说的A/D转换（模数转换，将模拟数据转换为数字数据）。
通过上面转换过程的描述可以知道，一个数字音频通常由以下三个部分组成：

采样频率 采样是在拥有无限个点的连续波形上选取有限个离散点，采集到的离散点越多，也就越能真实的波形。由于声音是在时间上的连续波形，其采样点的间隔就是两次采样的时间间隔。通俗来说，采样率指的是每秒钟采样的点数，单位为HZ。采样率的倒数是采样周期，也就是两次采样的时间间隔。采样率越大，则采集到的样本点数就越多，采样得到的数字音频也就更接近真实的声音波形，相应的其占用的存储空间也就越大。常用的采样频率有：
- 22k Hz 无限广播所用的采样率
- 44.1k Hz CD音质
- 48k Hz 数字电视，DVD
- 96k Hz 192k Hz 蓝光盘，高清DVD
采样精度 采集到的点被称为样本（sample），每个样本占用的位数就是采样精度。这点和图像的像素表示比较类似，可以使用8bit，16bit或者24bit来表示采集到的一个样本。同样，一个样本占用的空间越大其表示的就越接近真实的声音。
通道支持不同发声的音响的个数。常用的声道有单声道、双声道、4声道、5.1声道等。不同的声道在采样的时候是不同的，例如双声道，在每次采样的时候有采集两个样本点。

下图是一个三通道的音频示例

比特率 指的是每秒传送的比特（bit）数，其单位是bps（Bit Per Second），是间接衡量声音质量的一个标准。
- 没有压缩编码的音频数据，其比特率 = 采样频率 * 采样精度 * 通道数，通过该公式可以看出，比特率越高，采样得到的声音质量就越高，相应的占用的存储空间也就越大。
- 经过压缩编码后的音频数据也有一个比特率，这时候的比特率也可以称之为码率，因为其反映了压缩编码的效率。码率越高，压缩后的数据越大，得到音频质量越好，相应的压缩的效率也就越低。
  码率 = 音频文件的大小 / 时长，在时长一定的情况下，码率越高则音频文件越大，其音频的品质也就越高。常见的一些码率：
  - 96 Kbps FM质量
  - 128 - 160 Kbps 比较好的音频质量
  - 192Kbps CD质量
  - 256Kbps 320Kbps 高质量音频

通常我们所说的比特率（码率）指的是编码后的每秒钟的数据量。码率越高，压缩比就越小，音频文件就越大，相对的音频质量也就越好。码率可以反映出音频的质量，码率越高，音频质量就越，反之亦然。

2.SDL2播放音频

使用SDL播放解码后的音频数据，SDL播放音频数据的流程如下：

使用SDL播放声音前，首先要设置一些关于音频的选项：采样率，通道数，采样精度，然后还要指定一个回调函数callback以及用户数据（在播放时需要用到的数据指针）。播放音频的时候，SDL将调用回调函数将待播放的音频数据填充到一个特定的缓冲区中。

2.1 SDL_AudioSpec

SDL中的结构体SDL_AudioSpec包含了关于音频的格式信息（采样率，通道数，采样精度）和回调函数以及用户数据指针，其声明如下：

typedef struct SDL_AudioSpec
{
    int freq;                   /**< DSP frequency -- samples per second */
    SDL_AudioFormat format;     /**< Audio data format */
    Uint8 channels;             /**< Number of channels: 1 mono, 2 stereo */
    Uint8 silence;              /**< Audio buffer silence value (calculated) */
    Uint16 samples;             /**< Audio buffer size in samples (power of 2) */
    Uint16 padding;             /**< Necessary for some compile environments */
    Uint32 size;                /**< Audio buffer size in bytes (calculated) */