语音识别系统新版发布，新增多种实用功能。

最新推荐文章于 2024-11-01 17:13:19 发布

m0_56774646

最新推荐文章于 2024-11-01 17:13:19 发布

阅读量619

点赞数 12

文章标签：语音识别人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56774646/article/details/135532934

版权

1.新增实时语音识别处理 RTSP AAC 格式音频流功能

实时语音识别支持将 RTSP 音视频流作为语音识别的音频源，系统将从指定的 URL 拉流并对其中的语音数据进行语音识别处理。目前支持 AAC 编码的音频格式。

2.新增中间结果返回词信息、词稳定状态的字段

实时语音识别、一句话识别支持通过新增参数enable_intermediate_words 来控制是否返回中间结果词信息。中间结果词信息内容包括：文本、开始/结束时间、稳定状态。

稳定状态（stable）字段用于表示当前词在中间结果中是否还会发生变化，如果stable == false 则表示该词在后续的中间结果中仍有可能发生变化；反之则表示该词已经稳定、不会发生变化。

基于此功能，您可以在您的应用界面中显示更细粒度的状态信息，如下图所示：

3.优化中文标点模型

在新版本中，对中文标点模型进行了进一步的优化迭代，句错率相较于前一版本下降了20%。

4.优化实时语音识别中文句尾标点逻辑

在旧版本中，实时语音识别将在最终结果（SentenceEnd事件）中返回句尾标点。但此时因为缺少下一句的文本信息，因此可能导致标点不准确。

新版本中，新增了“稍后添加句尾标点”的逻辑，可通过配置文件中的punctuateLater参数控制是否启用新逻辑。启用新逻辑后，当前句尾的标点，将在下一句的句首返回，这样有助于提高句尾标点的准确性。

从2.5.5版本开始，默认启用“稍后添加句尾标点”的新逻辑。用户可通过 service.toml 配置文件中的 punctuateLater 参数控制是否启用该逻辑。

5.新增断句模块，优化录音文件转写字幕模式断句效果

新增断句模块，用于进一步提升录音文件转写（字幕模式）的断句效果，使观感上更加通顺。

详情咨询V：lanqi_wen

关注

12
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。