基于C语言实现PCM音频流或音频文件重采样（48K到16K）

最新推荐文章于 2024-05-27 22:54:17 发布

逆旋流

最新推荐文章于 2024-05-27 22:54:17 发布

阅读量10w+

点赞数 1

分类专栏：语音识别文章标签：语音识别 pcm 音频编码解码 c语言

本文链接：https://blog.csdn.net/a18359388932/article/details/119633394

版权

语音识别专栏收录该内容

1 篇文章 0 订阅

订阅专栏

基于C语言实现PCM音频流或音频文件重采样（48K到16K）

由于云厂商SDK需要的音频采样率是16K的，而SFU回调上来的流是48K的，所以我们还需要对PCM音频数据进行重采样处理。

转换的原理比较简单，从48KHz降到16KHz，降了3倍，也就是说在同一时间的单位区间内，48KHz采样了3个点，而16KHz只采样了1个点，即从48KHz的 PCM流中每读取3个数据，就要根据这3个数据去推算得到1个数据，而这个数据对应的就是16KHz PCM流中的一个数据。

重采样

我们有很多种方法可以由3个数据得到1个数据，如取平均值，取采样点等方法：

(1). 取平均值：

取3个点，相加后求平均值。这样的效果并不好，转换后声音会有杂音。这是因为转换成16kHz的采样率时，根据奈奎斯特采样定律，当采样频率fs.max大于信号中最高频率fmax的2倍时(fs.max>2fmax)，，那么根据这些抽样值就能完全恢复原信号，所以转换成16kHz的采样率时，不能有8K以上的频率。而对3个点求平均值，是会有概率存在着8khz以上的频段，故效果并不好。

(2). 取特征点：

取3个采样点中固定位置的某个点，如固定取3个点中的第一个点，然后合并成新的数据流。这样的效果，实测比较清晰，虽然有概率会丢失部分声音细节，但是整体还是能够满足语音识别。

综上所述，我们采取第一个特征点的方法。

具体实现如下

C语言实现

处理pcm流：

/** PCM frame. */
typedef struct {
    uint8_t        *buf;
    int             len;
    int             sample_rate;
    int             sample_depth;
} pcm_frame_t;

void pcm_resample_16k(const pcm_frame_t *frame_in, pcm_frame_t *frame_out)
{
    int i;
    int magnification = frame_in->sample_rate / 16000;

    frame_out->buf = frame_in->buf;
    frame_out->len = frame_in->len / magnification;
    frame_out->sample_rate = 16000;
    frame_out->sample_depth = frame_in->sample_depth;


    for (i = 0; i < frame_out->len; i++) {
        frame_out->buf[i] = frame_in->buf[i*magnification]; /* 取第一个特征值 */
    }


    /* 如果按照16bit来 */
//     for (i = 0; i < len / 3; i++) {
//         if (0 == (i % 2)) {
//             buf[i] = buf[i*3+2];
//         } else {
//             buf[i] = buf[i*3];
//         }
//     }
}

处理pcm文件：

void pcm_resample(void)
{
    short read_buf = 0;
    int size = 0;
    int cnt = 0;

    FILE *fp = fopen("in.pcm", "rb+");
    FILE *fp_out = fopen("out.pcm", "wb+");

    while (!feof(fp)) {
        size = fread(&read_buf, 2, 1, fp); // 16bit,所以需要一次读两个字节
        if (size > 0) {
            cnt++;
            if (cnt == 3) { //每采集到3个点
                cnt = 0; // 重置计数
                fwrite(&read_buf, 2, 1, fp_out); //写入数据
            }
        }
    }

    fclose(fp);
    fclose(fp_out);
}

逆旋流

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
2
评论
基于C语言实现PCM音频流或音频文件重采样（48K到16K）

基于C语言实现PCM音频流或音频文件重采样（48K到16K）由于云厂商SDK需要的音频采样率是48K的，而SFU回调上来的流是48K的，所以我们还需要对PCM音频数据进行重采样处理。转换的原理比较简单，从48KHz降到16KHz，降了3倍，也就是说在同一时间的单位区间内，48KHz采样了3个点，而16KHz只采样了1个点，即从48KHz的 PCM流中每读取3个数据，就要根据这3个数据去推算得到1个数据，而这个数据对应的就是16KHz PCM流中的一个数据。我们有很多种方法可以由3个数据得到
复制链接

扫一扫