【飞桨PaddleSpeech语音技术课程】— 语音识别-流式服务

最新推荐文章于 2025-03-07 16:11:08 发布

小湉湉

最新推荐文章于 2025-03-07 16:11:08 发布

阅读量5k

点赞数 3

分类专栏：语音识别 MachineLearning 文章标签：语音识别人工智能音频

本文链接：https://blog.csdn.net/qq_21275321/article/details/127574469

版权

FastAPI websocket 流式语音识别服务

0. 背景

流式语音识别(Streaming ASR)或者在线语音识别(Online ASR) 是随着输入语音的数据不断增加，实时给出语音识别的文本结果。与之相对的是非实时或者离线语音识别，是传入完整的音频数据，一次给出整个音频的语音识别文本结果。

训练完一个流式的语音识别模型之后，需要将流式语音识别模型封装成一个服务，使用者通过网络访问流式语音识别服务实时获取音频的文本内容。

流式语音识别服务在实时字幕，视频直播，实时会议转写，输入法等场景都有大规模的应用。

1. Websocket 协议

在流式语音识别中，客户端client和服务端server需要进行长时间进行数据交互，client端不断地将数据传入到服务端，server需要将实时识别的文本返回给client端，因此client需要和server保持长时间的网络连接。

PaddleSpeech采用Websocket协议，保证client和server可以长时间保持网络连接。

WebSocket 协议支持全双工通信，client端和server端可以在一个网络连接上收发消息，使用WebSocket协议，可以实现client不断地向server端发送数据，进行实时语音识别。

# 下载流式ASR的demo视频
!mkdir -p work/source/
!test -f work/source/streaming_asr_demo.mp4 || wget -c https://paddlespeech.bj.bcebos.com/demos/asr_demos/streaming_asr_demo.mp4 -P work/source/

import IPython.display as dp
from IPython.display import HTML
html_str = '''
<video controls width="600" height="360" src="{}">animation</video>
'''.format("work/source/streaming_asr_demo.mov")
dp.display(HTML(html_str))