音频处理——解析PCM格式实例（音量调控）

最新推荐文章于 2025-03-20 13:22:23 发布

Spark！

最新推荐文章于 2025-03-20 13:22:23 发布

阅读量4.5k

点赞数 2

分类专栏：音频处理文章标签：语音识别深度学习机器学习

本文链接：https://blog.csdn.net/qq_28258885/article/details/120203144

版权

音频处理专栏收录该内容

8 篇文章

订阅专栏

本文介绍了PCM音频文件解析的基本概念，包括采样率、采样精度和声道数等，并通过实例展示了音量控制的过程。在调整音量时，需要注意数据溢出的问题，通过裁剪确保样本值在有效范围内。此外，文章讨论了使用对数关系进行音量调节以符合人耳感知，提出使用tan函数模拟对数增长，以实现更平滑的音量变化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

举例

要注意的是，PCM的数据在内存中是纯数据的二进制，也就是说我们无法通过解析文件得知他的采样率、采样精度、声道数等信息，只能先得知它的参数再对其进行解析。

我用于解析的PCM文件参数如下

采样精度——16bit
采样率——16000Hz
声道——单声道
音频帧率——40
每帧的采样点——640

波形如下
在这里插入图片描述
此文件为欢迎光临的语音

音频文件的尺寸 = 采样频率 x 采样精度 x 通道数 x 采样时间
于是示例文件的尺寸 = 16000 x 2 x 1 x 1.584 =   50688byte

在这里插入图片描述

音量控制

我们先看一个真正的音频样本波形：
在这里插入图片描述
如果我们放大5倍波形，也就是振幅乘以5，此时我们听到了更大的声音，此时样本波形如下：

假如我们有2048bytesPCM数据，样本大小两个字节，共有1024个样本，我们要放大两倍声音，代码可以按如下写：

int16_t pcm[1024] = read in some pcm data;
for (ctr = 0; ctr < 1024; ctr++) 
{
	pcm[ctr] *= 2;
}

虽然看着是很简单，但是需要考虑一些问题

数据溢出

因为每个样本取值范围是有限制的，调节音量时不可能随便增大，比如一个signed 16 bits的样本，值为5000，我们放大10倍，由于有符号位16bits数据取值范围为-32768~32767，5000乘以10得到的50000超过了32767，数据溢出了，最后值可能变为-15536，不是我们期望的。此时我们就需要裁剪了，确保数值在正确范围内。如下代码对前面说到的放大两倍声音做了裁剪处理：

int16_t pcm[1024] = read in some pcm data;
int32_t pcmval;
for (ctr = 0; ctr < 1024; ctr++) 
{
    pcmval = pcm[ctr] * 2;
    if (pcmval < 32767 && pcmval > -32768) 
    {
        pcm[ctr] = pcmval
    } 
    else if (pcmval > 32767) 
    {
        pcm[ctr] = 32767;
    } 
    else if (pcmval < -32768) 
    {
        pcm[ctr] = -32768;
    }
}

对数描述

平时表示声音强度我们都是用分贝（db）作单位的，声学领域中，分贝的定义是声源功率与基准声功率比值的对数乘以10的数值。根据人耳的心理声学模型，人耳对声音感知程度是对数关系，而不是线性关系。人类的听觉反应是基于声音的相对变化而非绝对的变化。对数标度正好能模仿人类耳朵对声音的反应。所以用分贝作单位描述声音强度更符合人类对声音强度的感知。前面我们直接将声音乘以某个值，也就是线性调节，调节音量时会感觉到刚开始音量变化很快，后面调的话好像都没啥变化，使用对数关系调节音量的话声音听起来就会均匀增大。

如下图，横轴表示音量调节滑块，纵坐标表示人耳感知到的音量，图中取了两块横轴变化相同的区域，音量滑块滑动变化一样，
但是人耳感觉到的音量变化是不一样的，在左侧也就是较安静的地方，感觉到音量变化大，在右侧声音较大区域人耳感觉到的音量变化较小。

在这里插入图片描述
下面我们讲下音量值乘数取值，这里我只简单的用tan函数模拟，效果也不错，至于使用对数如何调整请参考文末链接：

 int some_level;
 float multiplier = tan (some_level / 100.0 );

上面代码中音量乘数取值为tan (some_level / 100.0 )，最后实现代码如下：

int16_t pcm[1024] = read in some pcm data;
int32_t pcmval;
uint8_t level = certain value;
float multiplier = tan(level/100.0);
for (ctr = 0; ctr < 1024; ctr++) {
    pcmval = pcm[ctr] * multiplier;
    if (pcmval < 32767 && pcmval > -32768) {
        pcm[ctr] = pcmval
    } else if (pcmval > 32767) {
        pcm[ctr] = 32767;
    } else if (pcmval < -32768) {
        pcm[ctr] = -32768;
    }
}