alsa frame period period_size buffer_size 等解释

最新推荐文章于 2024-07-31 11:15:07 发布

hc-斌斌

最新推荐文章于 2024-07-31 11:15:07 发布

阅读量6.5k

点赞数 3

分类专栏： C/C++

C/C++ 专栏收录该内容

60 篇文章 1 订阅

订阅专栏

FramesPeriods

一个frame就等于一个要被播放的声音样本。与通道数和样本长度无关。
例子：

1帧立体声48khz 16位的pcm数据长度为4bytes
1帧5.1正道48k 16位pcm流的大小为12bytes

一个period就是每两次硬件中断之间的帧数。poll()会每个周期return一次。
buffer是一个环形buffer，大小一般来说比一个period size大，一般设做 2 * period size，但是一些硬件可以支持到8个周期大小的buffer，也可以设为非整数倍的period的大小。

现在如果我们的硬件设置为48khz，2周期，每个周期1024个帧，那么buffer size 就是2048个帧。硬件每处理一个buffer会中断2次，alsa会一直让buffer保持一个满的状态，每当第一个周期的样本播放完成，第二个周期的数据就会被播放，同时第三个周期的数据就会进入到第一个周期数据的位置。

例子

另一个例子：
假设我们将要使用一个立体声 16位 44.1k的音频流，单向（录音或者播放），那么我们就有

立体声 = 2通道
1个样本 16bits = 2bytes
1个帧代表所有通道的一个样本。那么我们现在是双通道，所以
- 1帧 = （通道数） * （样本大小bytes） = 2 * 2 = 4bytes
为了能支持2 * 44.1k的采样率，系统必须支持如下的速度
- bsp_rate = (通道数) * （1个样本长度） * （采样率） = 1帧 * 采样率 = 2 * 2 * 44.1k = 176400bytes/sec
图我就不挪了自己看原版吧

现在 alsa每秒都中断。那么我们每秒都需要176400byte数据准备好，才能供上一个双通道 16 位 44.1k的音频流。

如果半秒中断一次，那么每次终端就是 176400 / 2 = 88200 bytes
如果100ms中断一次，那么我们就需要 176400 * （0.1 / 1）= 17640 位。

我们可以通过设置period size 来控制pcm中断的产生。
- 如果我们设置一个16位双通道44.1k的音频流并且每次都有4410帧数据 -》 4 byte * 4410frams = 17640字节》一次中断会需要17640字节的数据 =》那么他就是100ms中断一次。

alsa会自己觉得实际的buffer_size 和period_size，根据请求的通道数，和他们其他的一些属性。

下面是一个问题的回答：

帧代表一个单位 1帧 = 通道数 * 样本长度
在你的情况下，1帧占据了 2 通道* 16位 = 4个字节

周期数就是在环形buffer里面的
buffer_size = 周期大小 * 周期数
周期大小（bytes） = 周期大小 * byte每帧
byte每帧 = 通道数 * 每个样本的byte数

后面不愿意翻了大概意思有了。

翻译的不太好。如果有错误，请告知，谢谢。

一、预备知识

1、声音分分类
(0)极低频： 20-40Hz
（1）低频： 40-80Hz
（2）中低频： 80-160Hz
(3)中频: 160Hz-1280Hz这个频段之间横跨的幅度是最宽的，几乎把所有的乐器
          及人声都包含进去了，所以是最重要的频段
(4)中高频： 1280-2560Hz （5）高频： 2560-5120Hz (6)极高频： 5120Hz-20000Hz   人耳理论上的可听域为20－20KHz，在家用优质前置放大器中，低音调节点一般设置在80Hz，
   中音调节点一般设置在1Kz，高音调节点一般有3种设置法:8KHz、10KHz、12KHz 2、2.1声道2.0声道的区别
一般的2.0的音箱分为两个分频，高频和中低频，如果你打开音箱可以看到两个扬声器（俗称喇叭），
上面小的就是输出高频信号，下面大的扬声器为中低频。2.1音箱也是二分频的，小音箱是高频为
主，低音炮为低音为主，所以大家就可以比较出来了，2.1的音箱中音是远不如2.0的，因为它没有
单独的中音单元（负责中频的扬声器），但是2.1的好处是，它的低音是单独的一个大直径的扬声器，
所以它的下潜较深,也导致2.1音响比较容易出较果。

二、PCM1、设备命名 API 库使用逻辑设备名而不是设备文件。设备名字可以是真实的硬件名字也可以是插件名字。硬件名字使用hw:i,j这样的格式。其中i是卡号，j是这块声卡上的设备号。第一个声音设备是hw:0,0.这个别名默认引用第一块声音设备并且在本文示例中一真会被用到。插件使用另外的唯一名字。比如plughw:, 表示一个插件，这个插件不提供对硬件设备的访问，而是提供像采样率转换这样的软件特性，硬件本身并不支持这样的特性。2、声音缓存和数据传输每个声卡都有一个硬件缓存区来保存记录下来的样本。当缓存区足够满时，声卡将产生一个中断。内核声卡驱动然后使用直接内存(DMA)访问通道将样本传送到内存中的应用程序缓存区。类似地，对于回放，任何应用程序使用DMA将自己的缓存区数据传送到声卡的硬件缓存区中。这样硬件缓存区是环缓存。也就是说当数据到达缓存区末尾时将重新回到缓存区的起始位置。ALSA维护一个指针来指向硬件缓存以及应用程序缓存区中数据操作的当前位置。从内核外部看，我们只对应用程序的缓存区感兴趣，所以本文只讨论应用程序缓存区。应用程序缓存区的大小可以通过ALSA库函数调用来控制。缓存区可以很大，一次传输操作可能会导致不可接受的延迟，我们把它称为延时(latency)。为了解决这个问题，ALSA将缓存区拆分成一系列周期 (period)(OSS/Free中叫片断fragments).ALSA以period为单元来传送数据。一个周期(period) 存储一些帧(frames)。每一帧包含时间上一个点所抓取的样本。对于立体声设备，一个帧会包含两个信道上的样本。图1展示了分解过程：一个缓存区分解成周期，然后是帧，然后是样本。图中包含一些假定的数值。图中左右信道信息被交替地存储在一个帧内，这称为交错 (interleaved)模式。在非交错模式中，一个信道的所有样本数据存储在另外一个信道的数据之后。period(周期):硬件中中断间的间隔时间。它表示输入延时。声卡接口中有一个指针来指示声卡硬件缓存区中当前的读写位置。只要接口在运行，这个指针将循环地指向缓存区中的某个位置。frame size = sizeof(one sample) * nChannels alsa中配置的缓存(buffer)和周期(size)大小在runtime中是以帧(frames)形式存储的。period_bytes = frames_to_bytes(runtime, runtime->period_size); bytes_to_frames() The period and buffer sizes are not dependent on the sample format because they are measured in frames; you do not need to change them.3、Over and Under Run 当一个声卡活动时，数据总是连续地在硬件缓存区和应用程序缓存区间传输。但是也有例外。在录音例子中，如果应用程序读取数据不够快，循环缓存区将会被新的数据覆盖，这种数据的丢失被称为overrun.在回放例子中，如果应用程序写入数据到缓存区中的速度不够快，缓存区将会"饿死"，这样的错误被称为underrun。在ALSA文档中，有时将这两种情形统称为"XRUN"。适当地设计应用程序可以最小化XRUN并且可以从中恢复过来。4、参数设置1) PCM设备的句柄.2) 指定同时可供回放或截获的PCM流的方向3) 提供一些关于我们想要使用的设置选项的信息,比如缓冲区大小,采样率,PCM数据格式等4) 检查硬件是否支持设置选项. 4.1) 初始化PCM变量 4.2) 分配hwparams结构 4.3) 打开PCM设备 4.4) 以声卡的全部设置选项空间来初始化hwparams结构 4.5) 指定访问类型,采样格式,采样率,声道号码,周期数目以及周期大小 a) 访问类型 :指定了哪一个多声道数据储存在缓冲区的方法. *对于交错访问,缓冲区里的每一个帧为声道容纳连续的采样数据. *对于非交错访问,每一个周期为第一个声道容纳所有采样数据接着是第二个声道的采样数据 b) 缓冲区尺寸的单元依赖于函数.一些时候是字节,一些时候是必须指定的帧的数目. 一个帧是对所有声道的采样数据数组.对于16位立体声数据,一个帧的长度是4个字节. 如果你的硬件不支持2的N次方的缓冲区大小,你可以使用 snd_pcm_hw_params_set_buffer_size_near函数.这个函数工作起来与snd_pcm_hw_params_set_rate_near相似.5) 为PCM设备申请由pcm_handle指向的设置选项三、ALSA1、 alsa展现的三层结构：（1）application：这个就是你写的程序，你开辟一个buffer，比如playback，就交给alsa来play。（2）computer：指的是计算机的内核和驱动（驱动由alsa提供），当audio interfacce引发中断，内核会捕捉到，再把处理移交alsa。（3）audio interface：就是声卡，它含有hardware buffer，注意，这个hardware buffer是在声卡
里面，不是内存。在上面的框架下，流程如下：（1）playback：application开辟一个buffer，填上数据，调用alsa接口，alsa把buffer数据复制到其驱动的空间，再把数据交给hardware buffer。（2）record：同playback，相似的。2、细节：按照上面的流程，其中有许多细节我们可以加以控制，这里仅仅指出应用程序需要关心的：2.1 操作的设备：在alsa驱动这一层，目前为止，抽象出了4层设备，一是如hw:0,0，二是plughw:0,0，三是default:0，四是default。至于一是清楚了，二和二以上可以做数据转换，以支持一个动态的范围，比如你要播放7000hz 的东西，那么就可以用二和二以上的。而你用7000hz作为参数，去设置一，就会报错。三和四，支持软件混音。我觉得default:0表示对第一个声卡软件混音，default表示对整个系统软件混音。这里提出两点：（1）一般为了让所有的程序都可以发音，为使用更多的默认策略，我们选用三和四，这样少一些控制权，多一些方便。（2）对不同的层次的设备，相同的函数，结果可能是不一样的。比如，设置Hardware Parameters里的period和buffer size，这个是对硬件的设置，所以，default和 default:0这两种设备是不能设置的。比如，如果直接操作hw:0,0，那么snd_pcm_write只能写如8的倍数的frame，比如16,24,否则就会剩下一点不写入而退回，而default，就可以想写多少就写多少，我们也不必要关心里面具体的策略。2.2 Hardware Parameters 之所以叫做Hardware Parameters，是因为alsa这一层api是较为底层的，它允许用户对上面提到的三层结构的audio interface和computer两层都做设置。其中对computer，也就是alsa驱动这一层的设置，叫做Software Parameters，而对audio interface（声卡）的设置叫做Hardware Parameters。（当然，要设置hardware parameters，也肯定是通过alsa驱动来完成，只不过哪些参数是指导硬件的，哪些是指导alsa驱动的，分开设置了）（1）Sample rate：不用说了（这些，对于default设备也能设的，上面已经说了）（2）Sample format：不用说了（3）Number of channels：不用说了（4）Data access and layout：简单点，就是说，在一个period以内，数据是按照channel1排完了再排channel2呢，还是一个frame一个frame的来排（frame在alsa里指的是一次采样时间内，两个channel的数据放一块儿就是一个frame）。默认是第二种。（5）Interrupt interval：中断间隔，就是靠periods决定的，有函数来设置periods，也就是说这个 hardware buffer在一次遍历之内，要中断多少次，来通知内核（最终是到alsa驱动）来写入或读走数据。比如buffer是8192个frame大，而period设为4个frame大，那么比如playback，则每当有 4个frame大的hardware buffer空间空出，就会中断，通知内核（alsa驱动）来写如数据。这个是影响实时效果的关键！！！但是，我观察的，我的电脑的默认period就是4个frame，按16字节，双通道来算的话，也就是16个字节！所以，默认就很实时了！！一般的实时程序已经够用了！！一般不用调整。（6）Buffer size：就是hardware buffer的大小，如果alsa整套体系主要靠这个来做缓冲，那么这个的大小，将影响缓冲效果，但是一般也不调整。2.3 Software Parameters: （1）snd_pcm_sw_params_set_avail_min (playback_handle, sw_params, 4096) 这个仅用在interrupt-driven模式。这个模式是alsa驱动层的，不是硬件的interrupt。它的意思是，用户使用snd_pcm_wait()时，这个实际封装的是系统的poll调用，表示用户在等待，那么在等待什么呢？对于playback来讲，就是等待下面的声卡的hardware buffer里有一定数量的空间，可以放入新的数据了，对于record来讲，就是等待下面声卡新采集的数据达到了一定数量了。这个一定数量，就是用 snd_pcm_sw_params_set_avail_min来设置。单位是frame。实际运作，没读驱动代码，不是很清楚，可能是alsa驱动根据用户设的这个参数，来设置Hardware Parameters里面的period，也可能是不改变硬件的period，每次硬件中断还是copy到自己的空间，然后数据积累到一定数量再interrupt应用程序，使之从wait()出来。我不知道，也不必深究。这种模式的使用，需要用户在snd_pcm_wait()出来以后，调用一个平常的wirtei或readi函数，来写入或读取那个“一定数量”的数据。如果用户不用interrupt-driven模式，那么这个函数不必使用。（2）snd_pcm_sw_params_set_start_threshold (playback_handle, sw_params, 0U) 这个函数指导什么时候开启audio interface的AD/DA，就是什么时候启动声卡。对于playback，假设第三个参数设为320,那么就是说，当用户调用writei，写入的数据，将暂时存在alsa 驱动空间里，当这个数据量达到320帧时，alsa驱动才开始将数据写入hardware buffer，并启动DA转换。对于record，当用户调用readi，这个数据量达到320帧时，alsa驱动才开始启动AD转换，捕捉数据。我一般把它设为0,我没试过非0,如果是非0, 我想第一次的writei和readi一定得够数量才行，否则设备不启动。这个对实时效果是需要的，将第三个参数设置为0，保证声卡的立即启动。（3）what to do about xruns: xrun指的是，声卡period一过，引发一个中断，告诉alsa驱动，要填入数据，或读走数据，但是，问题在于， alsa的读取和写入操作，好象是必须用户调用writei和readi才会发生的，它不会去缓存数据！！！，所以如果上层没有用户调用writei和readi，那么就会产生overrun（录制时，数据都满了，还没被alsa驱动读走）和underrun（需要数据来播放，alsa驱动却不写入数据），统称为xrun。我对它的理解是，不是一个period 引发的中断就叫做xrun，而是当整个hardware buffer都被写满了（record时）或空了（play时），这个时候的中断下的情况才指的是xrun。无所谓了，怎么立解都行，不影响编程：）这个东西，需要用一些函数来设置，比如snd_pcm_sw_params_set_silence_threshold()，是针对 playback的，就是设置当xxx的情况下，就用silence来写入hardware buffer。至于xxx情况，以及写入多少silence，我都不是很清楚，还有，比如xrun到什么情况下，可以停止这个设备等等函数。这个（3）的涉及的参数，我都没试过，一般情况下，就用alsa驱动的默认的xrun处理策略吧，等以后出了错误再说，而且例子里也没有提到。

1 基本概念1:获取pcm音频帧声道数

AVCodecContext->channels
avframe->channels
printf("av_frame_get_channels = %d\n",av_frame_get_channels(frame));

1.1 声道与布局具有映射关系

audio channels and channel_layout_个叉叉_新浪博客

2 基本概念2:获取pcm音频帧每个声道的sample采样点个数

frame_->nb_samples

3 基本概念3:获取pcm音频帧物理存放方式

3.1 获取解码之后的pcm音频帧物理存放方式

frame->format

3.2 ffmpeg支持的音频帧的物理存放方式

FFmpeg: Audio sample formats

打印对应的含义
printf("av_get_sample_fmt_name= %s\n",av_get_sample_fmt_name(frame->format));

3.3 ffmpeg音频帧的物理存放方式含义

3.3.1 第一层意思: 每个采样点数据的物理存储类型

大端小端方式
无符号/有符号
数据位数
8位,16位等
数据类型
整形，浮点类型等

3.3.2 第二层意思: 不同声道的同一采样点是否单独存放

参考链接
PCM数据格式 - taoanran - 开源中国社区
 Decode Audio from Memory - C++ - Stack Overflow
audio - What is the difference between AV_SAMPLE_FMT_S16P and AV_SAMPLE_FMT_S16? - Stack Overflow

两种存放方式 packed和planar

第一种: 多个声道数据交错存放(packed类型,不带字符P)

对于 packed音频(左右声道打包存放), 只有一个数据指针(相当于一个声道)。
所有声道的数据交错排放在frame->data[0](即frame->extended_data[0])地址处
所有声道的数据长度为linesize[0](单位:字节)

地址	数据	备注
data[0]	声道1的采样点0	每个采样点数据有int、uint、float，大端小端之分
data[0]+1	声道2的采样点0
data[0]+2	声道1的采样点1
data[0]+3	声道2的采样点1
data[0]+4	声道1的采样点2
data[0]+5	声道2的采样点2
…	…
data[0]+2i	声道1的采样点i
data[0]+2i+1	声道2的采样点i

比如: AV_SAMPLE_FMT_S16 所有声道的数据放在一个buffer中，左右声道采样点交叉存放，每个采样值为一个signed 16位(范围为-32767 to +32767)。

第二种: 每个声道数据单独存放(planar类型，带字符P)
对于 planar音频(左右声道分开存放)，每个声道有自己的数据存放位置。
声道0的起始地址为 frame->data[0](或frame->extended_data[0])
声道1的起始地址为 frame->data[1](或frame->extended_data[1])
声道i的起始地址为 frame->data[i](或frame->extended_data[i])
每个声道的数据长度为linesize[0](单位:字节)

实际上ffmpeg在实现的时候，每个声道的数据连续存放，不同声道之间也是连续存放的。

地址声道
data[0] 声道1 采样点1
采样点2
采样点i
data[1] 声道2 采样点1
采样点2
采样点i
所以 data[i]=data[i-1] + linesize[0]

比如: AV_SAMPLE_FMT_S16P 每个声道的数据放在单独的buffer中，每个采样值为一个signed 16位(范围为-32767 to +32767)。
两者之间的联系
1. 所有声道的数据都是存放在 frame->data[0]开始的一段连续空间中
2. 如果是 packed类型，同一采样点的不同声道数据放到一起，然后存储下一个采样点
3. 如果是 planar类型，同一声道的所有采样点数据放到一起，然后存放下一个声道

判断是否是 planar类型
av_sample_fmt_is_planar(sample_fmt)
两者之间的转换
1. 通过重采样函数进行转换
2. 手动将每个声道的数据交错存放
根据存放方式，分配pcm数据空间(重采样用)
1. 手动分配
  int nb_planes;
  static uint8_t **audio_dst_data = NULL;
  nb_planes = av_sample_fmt_is_planar(audio_dec_ctx->sample_fmt) ? audio_dec_ctx->channels : 1; //如果是 planar类型，需要分配一个指针数组，每个元素指向一个声道
  audio_dst_data = av_mallocz(sizeof(uint8_t *) * nb_planes);
  if (!audio_dst_data) {
  fprintf(stderr, "Could not allocate audio data buffers\n");
  ret = AVERROR(ENOMEM);
  goto end;
  }
  ret = av_samples_alloc(audio_dst_data, &audio_dst_linesize, av_frame_get_channels(frame),
  frame->nb_samples, frame->format, 1);
  if (ret < 0) {
  fprintf(stderr, "Could not allocate audio buffer\n");
  return AVERROR(ENOMEM);
  }
2. 调用接口函数(内部实现，即是上面的函数调用过程)
  uint8_t ** audio_data;
  src_nb_channels = av_get_channel_layout_nb_channels(src_ch_layout);
  ret = av_samples_alloc_array_and_samples(&src_data, &src_linesize, src_nb_channels, //都是定义二重指针 audio_data,注意这里的调用方式
  src_nb_samples, src_sample_fmt, 0);
  if (ret < 0) {
  fprintf(stderr, "Could not allocate source samples\n");
  goto end;
  }
  // 这个函数内部即是上面的过程
  int av_samples_alloc_array_and_samples (uint8_t * audio_data,
  int * linesize,
  int nb_channels,
  int nb_samples,
  enum AVSampleFormat sample_fmt,
  int align
  )

地址	声道
data[0]	声道1	采样点1
		采样点2
		采样点i
data[1]	声道2	采样点1
		采样点2
		采样点i

3.3.3 获取pcm声道占有的byte空间大小

获取pcm每个声道占有的byte空间大小(可以通过pcm物理数据类型和采样点个数，通道个数推导出)
1. 对于 packed音频(左右声道打包存放)
  AVFrame->int linesize[0]值即为打包存放的所有声道的数据字节长度
2. 对于 planar音频(每个声道数据单独存放)
  AVFrame->int linesize[0]值即为每个声道的数据字节长度
  例如:
  frame->format为 FLTP类型(每个sample是float类型的)
  frame->nb_samples=2048(每个声道2048个采样点)
  推导出: 每个声道占有的byte空间大小为 2048*4=8192
  frame->linesize[0]确实等于8192
获取pcm所有声道占有的byte空间大小
1. 对于 packed音频(左右声道打包存放)
  linesize[0]值即为所有声道的数据字节长度
2. 对于 packed和planar音频，都可以使用官方函数得出
  输入的参数为pcm类型，声道个数，采样点数
```
int av_samples_get_buffer_size  (   int *   linesize,  //主要针对 planar类型
    int   nb_channels,
    int   nb_samples,
    enum AVSampleFormat   sample_fmt,
    int   align 
  )
```
  Parameters
  [out] linesize calculated linesize, may be NULL
  nb_channels the number of channels
  nb_samples the number of samples in a single channel
  sample_fmt the sample format
  align buffer size alignment (0 = default, 1 = no alignment)
  
  Returns
  required buffer size, or negative error code on failure