语音识别—实现百度语音识别

最新推荐文章于 2024-06-05 21:08:11 发布

DebJane

最新推荐文章于 2024-06-05 21:08:11 发布

阅读量2.6k

点赞数 2

分类专栏： AI 语音识别文章标签： ASR Nodejs websocket recorder

本文链接：https://blog.csdn.net/sueRimn/article/details/100031987

版权

该博客介绍了如何采用前端录音并通过Node.js搭建WebSocket服务器，实现与百度AI的语音识别接口对接。通过RecordRTC录制音频，将Blob对象通过WebSocket传递给后端，将音频保存并进行语音识别，最后将识别结果反馈给前端展示。项目支持普通话、英文、粤语、四川话，但不支持长时间段和唤醒词功能。

摘要由CSDN通过智能技术生成

采用前端录音，基于Node搭建Websocket服务器，音频对象Blob使用Websocket传给后端服务器后写入本地音频文件，然后调用百度AI语音识别本地音频文件，最后将识别结果传给前端显示。
源码下载

百度语音识别

查看文档知道了我想要的信息，如果想要实现实时语音识别、长时间段的语音、唤醒词功能、语义解析功能，需要使用Android、IOS SDK或者Linux C++ SDK版本，而我使用的Nodejs SDK是不支持的。

1、规格参数要求

语音时长上线为60s，超出讲返回错误
原始录音文件为pcm（不压缩）、wav（不压缩）、pcm编码或者amr（压缩）格式，不区分大小写，推荐使用pcm
录音采样率为16000，16bit位深、单通道
支持普通话、英文、粤语、四川话

项目结构

调用百度AI平台语音识别的Nodejs SDK，查看文档快速入门，可以查看如何调用。

首先将nodejs-sdk下载下来，下载后将目录里的speech文件夹拷贝到你的项目文件夹中，其中assets是存放录音音频的地方，然后进入node文件夹下的位置进行安装依赖包：

npm install

我的项目文件夹目录如下：

audio_asr_baidu
├─ package-lock.json
└─ speech
       ├─ .gitignore
       ├─ assets
       │    ├─ 16k_test.pcm
       │    └─ recorder.wav
       ├─ cpp
       │    ├─ .gitignore
       │    ├─ README.md
       │    ├─ build.sh
       │    └─ main.cpp
       └─ node
              ├─ .gitignore
              ├─ README.md
              ├─ RecordRTC.js
              ├─ index.html
              ├─ main.js
              ├─ node_modules
              ├─ package-lock.json
              ├─ package.json
              └─ style.css

然后在node文件夹里的index.html是我的客户端文件，main.js是我的服务端文件。

搭建Websocket服务器

在main.js文件里搭建websocket服务器，首先安装相关依赖模块：

npm i ws -S

然后搭建：

let Server = require('ws').Server;
const wss = new Server({
   
    port: 9001
})
// 连接服务器
wss.on('connection', ws => {
   
    console.log('server connected');

    })
    ws.on('error', error => {
   
        console.log('Error:' + error);

    })
    ws.on('close', () => {
   
        console.log('Websocket is closed');
    })
})
// 断开连接
wss.on('disconnection', ws => {
   
    ws.on(