1.新增实时语音识别处理 RTSP AAC 格式音频流功能
实时语音识别支持将 RTSP 音视频流作为语音识别的音频源,系统将从指定的 URL 拉流并对其中的语音数据进行语音识别处理。目前支持 AAC 编码的音频格式。
2.新增中间结果返回词信息、词稳定状态的字段
实时语音识别、一句话识别支持通过新增参数enable_intermediate_words 来控制是否返回中间结果词信息。中间结果词信息内容包括:文本、开始/结束时间、稳定状态。
稳定状态(stable)字段用于表示当前词在中间结果中是否还会发生变化,如果stable == false 则表示该词在后续的中间结果中仍有可能发生变化;反之则表示该词已经稳定、不会发生变化。
基于此功能,您可以在您的应用界面中显示更细粒度的状态信息,如下图所示:
3.优化中文标点模型
在新版本中,对中文标点模型进行了进一步的优化迭代,句错率相较于前一版本下降了20%。
4.优化实时语音识别中文句尾标点逻辑
在旧版本中,实时语音识别将在最终结果(SentenceEnd事件)中返回句尾标点。但此时因为缺少下一句的文本信息,因此可能导致标点不准确。
新版本中,新增了“稍后添加句尾标点”的逻辑,可通过配置文件中的punctuateLater参数控制是否启用新逻辑。启用新逻辑后,当前句尾的标点,将在下一句的句首返回,这样有助于提高句尾标点的准确性。
从2.5.5版本开始,默认启用“稍后添加句尾标点”的新逻辑。用户可通过 service.toml 配置文件中的 punctuateLater 参数控制是否启用该逻辑。
5.新增断句模块,优化录音文件转写字幕模式断句效果
新增断句模块,用于进一步提升录音文件转写(字幕模式)的断句效果,使观感上更加通顺。
详情咨询V:lanqi_wen