语音识别系统新版发布,新增多种实用功能。

1.新增实时语音识别处理 RTSP AAC 格式音频流功能

实时语音识别支持将 RTSP 音视频流作为语音识别的音频源,系统将从指定的 URL 拉流并对其中的语音数据进行语音识别处理。目前支持 AAC 编码的音频格式。

2.新增中间结果返回词信息、词稳定状态的字段

实时语音识别、一句话识别支持通过新增参数enable_intermediate_words 来控制是否返回中间结果词信息。中间结果词信息内容包括:文本、开始/结束时间、稳定状态。

稳定状态(stable)字段用于表示当前词在中间结果中是否还会发生变化,如果stable == false 则表示该词在后续的中间结果中仍有可能发生变化;反之则表示该词已经稳定、不会发生变化。

基于此功能,您可以在您的应用界面中显示更细粒度的状态信息,如下图所示:

图片

3.优化中文标点模型

在新版本中,对中文标点模型进行了进一步的优化迭代,句错率相较于前一版本下降了20%。

4.优化实时语音识别中文句尾标点逻辑

在旧版本中,实时语音识别将在最终结果(SentenceEnd事件)中返回句尾标点。但此时因为缺少下一句的文本信息,因此可能导致标点不准确。

新版本中,新增了“稍后添加句尾标点”的逻辑,可通过配置文件中的punctuateLater参数控制是否启用新逻辑。启用新逻辑后,当前句尾的标点,将在下一句的句首返回,这样有助于提高句尾标点的准确性。

图片

从2.5.5版本开始,默认启用“稍后添加句尾标点”的新逻辑。用户可通过 service.toml 配置文件中的 punctuateLater 参数控制是否启用该逻辑。

5.新增断句模块,优化录音文件转写字幕模式断句效果

新增断句模块,用于进一步提升录音文件转写(字幕模式)的断句效果,使观感上更加通顺。

详情咨询V:lanqi_wen

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值