研究场景化智能坐席相关的语音处理,开发相关项目:
- 未接通电话分类:分了8类,准确率95%+ (机器学习)
- 常用货币的分类,包含各种方言说的货币类型,自动识别为所对应的标签。(机器学习)
- 语音增强&语音增益处理 (深度学习)
- 语音分离 & 说话人的分离
- 语音时序分割,及所属说话人打标签 (机器学习)
- 静音检测标记、语速检测标记、情感识别标签
- 预研了TTS-文字转语音的算法 & 本文处理 & 预研智能聊天机器人 & kaldi语音识别 & 声纹处理。
- 语音转换/语音变声 (深度学习)
- 针对单字或者单词TTS语音合成,出现的问题,提出3项逐步改进算法,效果显著。
上述以及涉及到语音、文字等处理。
10. 广播节目的智能音频推荐(音频分类、检索、切割算法及相关代码实现的评估)
通俗而言:就是1~2小时的音频节目, 通过分类打标,切割成段音频, 其中是纯语音的、含有背景噪声的语音(需要经过去噪处理),经过ASR识别成文字,然后进行文字的关键词提取与打标签。生成关键词字典。 然后客户可以输入关键词查阅含有这个关键词的短音频。