开源语音Speex丨Windows环境配置和测试(一)

开源语言Speex丨Windows环境配置和测试(一)

前言:本系列准备介绍一款基于Speex的语音通信软件开发过程,希望对你有所帮助!


环境Windows 10 + vs 2017

参考链接:https://www.cnblogs.com/gaoyaguo/p/5032920.html


Speex 介绍

Speex(读音[spi:ks])是一套开源免费的、无专利保护的、针对语音设计的音频压缩格式。Speex项目通过以提供昂贵的专用语音编解码器的免费替代方案为目标,来降低语音应用程序的进入门槛。此外,Speex非常适用于互联网应用程序,并提供了其他大多数编解码器中不存在的有用功能。最后,Speex是GNU项目的一部分,可以在修订后的BSD许可证下使用。


Speex 特性

  • 一种基于码激励线性预测(CELP)算法的开源软件语音引擎。
  • 面向Internet 上的语音通信。
  • 其主要设计目标是为了提供高质量和低比特率的语音编码。
  • 同一个比特流中对语音信号实现
    • 窄带( 8 kHz)
    • 宽带( 16kHz)
    • 超宽带( 32 kHz) 的编码;
  • 支持声音强度的立体声编码;
  • 丢包补偿能力;
  • 可变比特率( variable bitrate, VBR) 特性,
  • 编/ 解码器可以在任意时刻动态地改变语音的比特率;
  • 语音活动检测( voice activity detection, VAD) ;
  • 声音的DTX( discontinuous transmission, 不连续传输);
  • 语音处理的定点数计算功能;
  • 声学回声消除功能。


Speex 参考资料

官网:http://www.speex.org

用户手册:http://www.speex.org/docs/manual/speex-manual.pdf

API手册:http://www.speex.org/docs/api/speex-api-reference.pdf

speex-1.2beta2开源音频编码器win32下编译:http://www.360doc.com/content/070719/11/29694_619680.html

Ekiga-开源的视频聊天程序:http://www.ekiga.org

注意Speex编解码器已经被Opus编解码器淘汰,Speex还是可以继续使用,但由于Opus比Speex在各方面都更好,所以鼓励大家切换到Opus,但是Opus只支持编码和解码,不支持噪音抑制、声学回音消除等其他处理功能。


Speex + libogg 下载

Speex下载地址:https://www.speex.org/downloads/

这里写图片描述


win32\VS2008包含项目

项目名称内容
speexencspeex编码器控制台程序,输入是ogg格式封装的speex编码的spx文件,输出是格式为raw PCM或者WAVE文件,有控制台参数提示信息。依赖libogg库
speexdecspeex解码器控制台程序,输入是格式为raw PCM或者WAVE文件,输出是ogg格式封装的speex编码的spx文件,有控制台参数提示信息。依赖libogg库
testenc测试窄带编码
testenc_wb测试宽带编码
testenc_uwb测试超宽带编码
libspeex库里面包含了编码和解码相关的函数


libogg下载地址:http://www.linuxfromscratch.org/blfs/view/svn/multimedia/libogg.html

libogg包包含Ogg文件结构。这对于创建(编码)或播放(解码)一个物理位流非常有用。众所周知,这个包使用LFS-8.2平台构建和工作。

这里写图片描述


编译步骤(speex-1.2 + libogg-1.3.3)

  1. 打开libogg-1.3.3\win32\VS2015\libogg_static.sln ,编译此项目,生成libogg_static.lib

  2. 将libogg-1.3.3中的ogg文件复制到speex-1.2.0下的include下;

    这里写图片描述

  3. speex-1.2下新建lib文件夹,将步骤1生成的libogg_static.lib复制到speex-1.2的lib目录下;

    这里写图片描述

  4. 打开speex-1.2\win32\VS2008\libspeex.sln;

  5. 配置项目speexencspeexdec的lib库文件,即将libogg_static.lib添加到这两个项目中,添加库目录,设置链接器\输入\附加依赖;
    这里写图片描述这里写图片描述

  6. 编译speexenc和speexdec项目 ;

编译错误

编译libspeex可能报错1.:fatal error C1083: 无法打开源文件: “……\libspeex\fftwrap.c”: No such file or directory

解决:删除fftwrap.c文件

编译libspeex可能报错2.:error MSB8036: 找不到 Windows SDK 版本8.1。请安装所需的版本的 Windows SDK 或者在项目属性页中或通过右键单击解决方案并选择“重定解决方案目标”来更改 SDK 版本。
解决:修改属性 SDK 版本;

这里写图片描述


编译speexdec 可能报错1.

1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_packet_to_header,该符号在函数 _process_header 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_bits_init,该符号在函数 _main 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_bits_destroy,该符号在函数 _main 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_bits_read_from,该符号在函数 _main 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_bits_remaining,该符号在函数 _main 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_decode_stereo_int,该符号在函数 _main 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_std_stereo_request_handler,该符号在函数 _process_header 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_decoder_init,该符号在函数 _process_header 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_decoder_destroy,该符号在函数 _main 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_decode_int,该符号在函数 _main 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_decoder_ctl,该符号在函数 _main 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_lib_ctl,该符号在函数 _version 中被引用
1>speexdec.obj : error LNK2019: 无法解析的外部符号 _speex_lib_get_mode,该符号在函数 _process_header 中被引用

解决:属性→配置属性→链接器→输入→附加依赖项:libspeex.lib

这里写图片描述

编译speexdec 可能报错2.

1>libspeex.lib(stereo.obj) : error LNK2019: 无法解析的外部符号 __imp__floor,该符号在函数 _speex_encode_stereo 中被引用
1>libspeex.lib(speex.obj) : error LNK2001: 无法解析的外部符号 __imp__floor
1>libspeex.lib(sb_celp.obj) : error LNK2001: 无法解析的外部符号 __imp__floor
1>libspeex.lib(nb_celp.obj) : error LNK2001: 无法解析的外部符号 __imp__floor

解决参考解决方法

这里写图片描述


编码流程

使用Speex的API函数对音频数据进行压缩编码要经过如下步骤

  1. 定义一个SpeexBits类型变量bits和一个Speex编码器状态变量enc_state。
  2. 调用speex_bits_init(&bits)初始化bits。
  3. 调用speex_encoder_init(&speex_nb_mode)来初始化enc_state。其中speex_nb_mode是SpeexMode类型的变量,表示的是窄带模式。还有speex_wb_mode表示宽带模式、speex_uwb_mode表示超宽带模式。
  4. 调用函数 int speex_encoder_ctl(void * state, int request, void * ptr)来设定编码器的参数,其中参数state表示编码器的状态;参数request表示要定义的参数类型,如SPEEX_GET_FRAME_SIZE表示设置帧大小,SPEEX_SET_QUALITY表示量化大小,这决定了编码的质量;参数ptr表示要设定的值。
  5. 可通过speex_encoder_ctl(enc_state, SPEEX_GET_FRAME_SIZE, &frame_size) 和speex_encoder_ctl(enc_state, SPEEX_SET_QUALITY, &quality)来设定编码器的参数。
  6. 初始化完毕后,对每一帧声音作如下处理:调用函数speex_bits_reset(&bits)再次设定SpeexBits,然后调用函数speex_encode(enc_state, input_frame, &bits),参数bits中保存编码后的数据流。
  7. 编码结束后,调用函数speex_bits_destroy(&bits),speex_encoder_destroy(enc_state)来关闭和销毁SpeexBits和解码器。


解码流程

  1. 对已经编码过的音频数据进行解码要经过以下步骤:
  2. 定义一个SpeexBits类型变量bits和一个Speex编码状态变量enc_state。
  3. 调用speex_bits_init(&bits)初始化bits。
  4. 调用speex_decoder_init (&speex_nb_mode)来初始化enc_state。
  5. 调用函数speex_decoder_ctl (void *state, int request, void *ptr)来设定编码器的参数。
  6. 调用函数 speex_decode(void *state, SpeexBits *bits, float *out)对参数bits中的音频数据进行解编码,参数out中保存解码后的数据流。
  7. 调用函数speex_bits_destroy(&bits), speex_ decoder_ destroy (void *state)来关闭和销毁SpeexBits和解码器。


例程

#include <speex/speex.h>
#include <stdio.h>

/*帧的大小在这个例程中是一个固定的值,但它并不是必须这样*/
#define FRAME_SIZE 160

int main(int argc, char **argv)
{

    char * inFile;
    FILE * fin;
    short in[FRAME_SIZE];
    float input[FRAME_SIZE];
    char cbits[200];
    int nbBytes;
    void * state; /*保存编码的状态*/
    SpeexBits bits; /*保存字节因此他们可以被speex常规读写*/
    int i, tmp;
    //新建一个新的编码状态在窄宽(narrowband)模式下
    state = speex_encoder_init(&speex_nb_mode);
    //设置质量为8(15kbps)
    tmp = 8;
    speex_encoder_ctl(state, SPEEX_SET_QUALITY, &tmp);
    inFile = argv[1];
    fin = fopen(inFile, "r");
    //初始化结构使他们保存数据
    speex_bits_init(&bits);
    while (1)
    {
        //读入一帧16bits的声音
        fread(in, sizeof(short), FRAME_SIZE, fin);
        if (feof(fin))
        break;
        //把16bits的值转化为float,以便speex库可以在上面工作
        for (i = 0; i < FRAME_SIZE; i++)
            input[i] = in[i];
        //清空这个结构体里所有的字节,以便我们可以编码一个新的帧
        speex_bits_reset(&bits);
        //对帧进行编码
        speex_encode(state, input, &bits);
        //把bits拷贝到一个利用写出的char型数组
        nbBytes = speex_bits_write(&bits, cbits, 200);
        //首先写出帧的大小,这是sampledec文件需要的一个值,但是你的应用程序中可能不一样
        fwrite(&nbBytes, sizeof(int), 1, stdout);
        //写出压缩后的数组
        fwrite(cbits, 1, nbBytes, stdout);
    }
    //释放编码器状态量
    speex_encoder_destroy(state);
    //释放bit_packing结构
    speex_bits_destroy(&bits);
    fclose(fin);
    return 0;
}
### 回答1: Speex全双工数字对讲机是一种基于开源技术的通信设备,具有实时语音传输和接收的能力。全双工意味着用户可以同时进行讲话和听取对方讲话,类似于真实的对话模式。开源指的是该设备的设计和代码开放给公众,任何人都可以自由查看、修改和分发。 开源一个Speex全双工数字对讲机的好处是多方面的。首先,开源能够促进设备的技术创新和改进,因为任何人都可以通过参与开源社区贡献自己的想法和代码。这将推动对讲机的功能和性能的不断优化。 其次,开源能够加速技术普及和推广。任何人都可以获取和使用Speex全双工数字对讲机的源代码,从而促进了对该设备的理解和应用。开源还为各种应用场景提供了更广泛的适应性,能够满足不同用户的需求。 另外,开源可以提高系统的安全性。通过公开源代码,社区成员可以检查和修复可能存在的漏洞,确保系统的稳定性和可靠性。这也为开发者提供了一个协作的环境,可以获得其他人的意见和建议,以进一步完善设备。 总的来说,开源一个Speex全双工数字对讲机可以促进技术发展、推广应用和增加设备的安全性。这种开源方式利益众多,共同促进了技术社区的发展和进步。 ### 回答2: Speex全双工数字对讲机是一种基于开源技术的对讲机系统。开源意味着该系统的源代码是公开可用的,可以被任何人查看、使用和修改。 开源一个Speex全双工数字对讲机,首先需要获取Speex全双工数字对讲机的源代码。由于Speex是一个开源音频压缩编解码库,我们可以在Speex的官方网站或其他开源代码库上找到相关源代码。 接下来,我们可以运用开发工具和编程语言(如C++等)对源代码进行修改和定制。我们可以添加新的功能或改进现有功能,例如增加对新的音频编码算法的支持,改善音质和网络连接稳定性等。 在开源过程中,与其他开发者共享和讨论是非常重要的。我们可以将改进后的代码上传到开源社区的代码仓库,例如GitHub等,供其他人查看、下载和贡献代码。这种开放的合作方式可以使我们受益于其他开发者的经验和意见,以获得更好的代码质量和功能。 最后,我们还可以编写文档或教程,帮助其他人理解和使用这个开源Speex全双工数字对讲机。这样有助于扩大对该系统的认知,并吸引更多开发者参与共同的开源项目。 总结而言,开源一个Speex全双工数字对讲机需要获取源代码并进行修改,与其他开发者共同合作,最终获得改进后的代码,并为社区提供文档和教程等支持。这种开源方式能够促进创新、合作和知识共享,为数字对讲机领域的发展带来积极影响。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值