- 博客(4)
- 收藏
- 关注
原创 语音识别系统新版发布,新增多种实用功能。
新版本中,新增了“稍后添加句尾标点”的逻辑,可通过配置文件中的punctuateLater参数控制是否启用新逻辑。启用新逻辑后,当前句尾的标点,将在下一句的句首返回,这样有助于提高句尾标点的准确性。稳定状态(stable)字段用于表示当前词在中间结果中是否还会发生变化,如果stable == false 则表示该词在后续的中间结果中仍有可能发生变化;实时语音识别支持将 RTSP 音视频流作为语音识别的音频源,系统将从指定的 URL 拉流并对其中的语音数据进行语音识别处理。目前支持 AAC 编码的音频格式。
2024-01-11 16:26:46 551
原创 语音识别领域的两篇Speech Communication (CCF-B类期刊)高水平论文
相比之下,人类在复杂和嘈杂的环境中具有辨别语音的非凡能力,这激励我们从人类听觉系统获得灵感进行语音或非语音的判断。首先,我们研究听觉启发式调制特征的设计作为深度学习编码器(AME),有效地模拟声音信号传输到内耳毛细胞和随后由神经细胞进行调制滤波的过程。其次,基于人类听觉系统中观察到的掩蔽效应,我们通过引入掩蔽机制来增强我们的听觉启发式调制编码器,从而产生AMME。第三,受人类听觉机制的启发,并利用上下文信息,我们利用注意力机制进行VAD。论文作者:林羽钦、党建武、王龙标、李胜、丁尘辰。
2024-01-11 16:20:49 469
离线语音识别算法+不用GPU+支持安卓与国产化
2023-02-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人