微信小程序语音识别服务搭建全过程解析（内附免费的供小程序语音识别的https服务）

最新推荐文章于 2025-05-09 09:58:37 发布

happycxz

最新推荐文章于 2025-05-09 09:58:37 发布

阅读量1.8w

点赞数 12

CC 4.0 BY-SA版权

分类专栏：人工智能小程序 linux 自然语言理解自然语言理解、自然语言处理应用文章标签： ubuntu api 语音识别免费微信小程序

本文链接：https://blog.csdn.net/happycxz/article/details/78016299

本文详述了在Ubuntu 16.04服务器上搭建微信小程序语音识别服务的过程，包括silk和mp3录音转olami API的实现。通过下载、编译silk_v3_decoder，解决采样率和格式问题，最终创建SpringMVC工程提供web服务。服务的调用和使用案例也在文中给出。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

微信小程序录音（silk和mp3）转olami语音识别和语义处理的api服务（ubuntu16.04服务器上实现）

重要的写在前面

重要事项一：
所有相关更新，我优先更新到我个人博客中，其它地方的文章属于本人或他人转发，不一定及时同步。原文链接是： http://www.happycxz.com/m/?p=32

重要事项二：
目前本文中提到的API已支持微信小程序录音文件格式：silk v3、mp3。
注：微信小程序开发工具上的录音不论是新接口还是老接口，都是webm/base64格式，虽然后辍名是silk（或mp3），但不是真正的silk v3（或mp3）格式的，打开看头部是 data:audio/webm;base64, 开头的。
为了便于调试，2017年9月份时我补逻辑给支持上了，但是：我在2017年11月份发现原有的webm/base格式又不支持了。
api服务器端代码没有动过，跟踪查过，目前仅发现在2017年10月份之前用微信小程序开发工具录的文件，还是可以支持的，在10月份之后的文件，就不支持了，具体什么原因只能问老马家的人了。
结论是：调用我本文中提到的两个接口，只能用真机做测试，不能用电脑录音来测试语音识别了。

重要事项三：
想要用我这个API，务必先去cn.olami.ai申请appKey和appSecret，然后将appKey告知我，我加进支持列表方可调用，二者缺一不可。文末有将有调用此文提到的API服务的案例以及源码分享文章链接。

调用案例：“遥知之”智能小秘，欢迎扫码体验：
小程序码小

重要事项四：
欢迎转载本文，没有什么别的要求，请保留：
原文链接：http://www.happycxz.com/m/?p=32
本文所有源码对应码云链接：https://gitee.com/happycxz/silk2asr
本文所有源码对应github链接：https://github.com/happycxz/silk2asr

为什么做？

前不久刚发布了一个智能生活信息查询的小助手“遥知之”，可惜只能手动输入来玩，这一点体验很不好，因为微信小程序录音是silk格式的，现在主要的语音识别接口都不支持。

在网上搜了下相应的功能，也只有php做的开源代码实现的silk转wav的服务器代码，首先我不熟悉PHP，其次也不知道后期有没有维护，干脆自己做一个tomcat + java版的，权当学习娱乐一下。

怎么做？

准备环境

先需要有一个支持https的服务器，我目前用的服务器是阿里云秒杀的免费最低配置的服务器，预装的ubuntu16.04 LTS版，然后自己捣鼓一下，配置上了https，具体是用 nginx + let’s encrypt + tomcat来提供的https的API。这里不详细介绍，感兴趣的自己研究下。

需要一个silk解码器，网上有一牛在2015年年初曾经发贴讨论过这个话题：silk v3 编码的音频怎么转换成 wav 或 mp3 之类的？

而且此牛后面有持续研究，提供了开源的silk_v3_decoder项目，具体见：kn007大牛的silk_v3_decoder

对了，开源项目是github上的，服务器上装个git，这不用额外再说明了吧。

搭建服务步骤

下载silk-v3-decoder

基本就是在服务器上找个目录，把大牛kn007的项目下载下来。

root@alijod:/home/jod/wechat_app# mkdir download
root@alijod:/home/jod/wechat_app# cd download/
root@alijod:/home/jod/wechat_app/download# git clone https://github.com/kn007/silk-v3-decoder.git
Cloning into 'silk-v3-decoder'...
remote: Counting objects: 634, done.
remote: Total 634 (delta 0), reused 0 (delta 0), pack-reused 634
Receiving objects: 100% (634/634), 72.79 MiB | 9.50 MiB/s, done.
Resolving deltas: 100% (352/352), done.
Checking connectivity... done.
root@alijod:/home/jod/wechat_app/download# ll
total 12
drwxr-xr-x 3 root root 4096 Sep 18 10:11 ./
drwxr-xr-x 7 root root 4096 Sep 18 10:11 ../
drwxr-xr-x 5 root root 4096 Sep 18 10:11 silk-v3-decoder/
root@alijod:/home/jod/wechat_app/download# ls silk-v3-decoder/
converter_beta.sh  converter.sh  LICENSE  README.md  silk  windows

看上述目录，其实只用到了silk这个目录，和converter.sh这个脚本。silk目录中的C代码需要gcc编译，converter.sh脚本需要修改一下，后续都会提。

编译silk_v3_decoder

根据https://github.com/kn007/silk-v3-decoder上的README，用上这个工具，需要gcc和ffmpeg，gcc是在编译silk时执行make时用到的（普及一下小白），ffmpeg其实是脚本里要用的，与编译无关。事实是，ffmpeg在整个服务搭建过程确实不是必备的，后文将有针对这个额外说明，只是本人偷懒，暂时不想再深入研究了。

gcc的环境，如果没有安装，自己网搜吧，这里不扯了，直接进入正题：

root@alijod:/home/jod/wechat_app/download# cd silk-v3-decoder/silk/
root@alijod:/home/jod/wechat_app/download/silk-v3-decoder/silk# ll
total 32
drwxr-xr-x 5 root root  4096 Sep 18 10:11 ./
drwxr-xr-x 5 root root  4096 Sep 18 10:11 ../
drwxr-xr-x 2 root root  4096 Sep 18 10:11 interface/
-rw-r--r-- 1 root root  3278 Sep 18 10:11 Makefile
drwxr-xr-x 2 root root 12288 Sep 18 10:11 src/
drwxr-xr-x 2 root root  4096 Sep 18 10:11 test/
root@alijod:/home/jod/wechat_app/download/silk-v3-decoder/silk# make
…………
…………（这里是一大段编译过程日志）
…………
a - src/SKP_Silk_scale_vector.o
gcc -c -Wall -enable-threads -O3   -Iinterface -Isrc -Itest  -o test/Decoder.o test/Decoder.c
test/Decoder.c: In function ‘main’:
test/Decoder.c:187:9: warning: ignoring return value of ‘fread’, declared with attribute warn_unused_result [-Wunused-result]
         fread(header_buf, sizeof(char), 1, bitInFile);
         ^
g++  -L./ test/Decoder.o -lSKP_SILK_SDK -o decoder
root@alijod:/home/jod/wechat_app/download/silk-v3-decoder/silk# ls
decoder  interface  libSKP_SILK_SDK.a  Makefile  src  test
root@alijod:/home/jod/wechat_app/download/silk-v3-decoder/silk#

可以看到，上面编译过程中，最后出现了一个warning，不过没关系，ls查一下，第一个“decoder”就是我们要用的binary啦，有它就证明编译成功了。

测试silk_v3_decoder功能

接下来就要验证一下编出来的这个能不能用了。
根据https://github.com/kn007/silk-v3-decoder上的README，摘下来一段：

sh converter.sh silk_v3_file/input_folder output_format/output_folder flag(format)

比如转换一个文件，使用：

sh converter.sh 33921FF3774A773BB193B6FD4AD7C33E.slk mp3

注意：其中33921FF3774A773BB193B6FD4AD7C33E.slk是要转换的文件，而mp3是最终转换后输出的格式。

参考上面那个例子就好了，脚本参数只有两个，一个是源文件相对或绝对路径，另一个是目标格式。
也就是说上述命令会将33921FF3774A773BB193B6FD4AD7C33E.slk（注意，例子里是slk后辍，你自己在获取微信小程序录音重命名时如果是.silk，别疑惑了，linux环境文件后辍名是没有实际意义的，感兴趣自己网搜，to小白）转码成33921FF3774A773BB193B6FD4AD7C33E.mp3。

没有silk源文件？别急，我准备了个silk_v3录音文件，附带着转出来的mp3一起放在我服务器上了，需要的可以去下载（右击后另存即可，mp3可以在线播放，silk播放不了，直接单击会“403”）：
微信小程序原始录音文件：sample.silk
converter.sh脚本转码后的文件：sample.mp3

附上我转码的操作过程：

root@alijod:/home/jod/wechat_app/download/silk-v3-decoder# ll
total 48
drwxr-xr-x 5 root root 4096 Sep 18 10:43 ./
drwxr-xr-x 3 root root 4096 Sep 18 10:11 ../
-rw-r--r-- 1 root root 4131 Sep 18 10:11 converter_beta.sh
-rw-r--r-- 1 root root 3639 Sep 18 10:11 converter.sh
drwxr-xr-x 8 root root 4096 Sep 18 10: