沃丰科技AI|一文了解ASR的发展历程

本文介绍了自动语音识别(ASR)技术,包括其定义、工作流程、发展历史以及面临的难点。ASR技术通过声学模型、语言模型和解码器将语音转化为文本,现广泛应用在客服、交通等多个领域。随着技术进步,端到端模型和垂直领域数据训练提高了识别准确性。沃丰科技的GaussMind语音识别技术,通过定制化识别和语言模型优化,实现95%的识别率,成功应用于北京地铁服务热线和松果出行等场景。
摘要由CSDN通过智能技术生成

在过去的十年里,人工智能驱动的语音识别系统已经慢慢成为我们日常生活的一部分,从语音搜索到客服中心、汽车、医院和餐厅里的虚拟助理。许多行业都在使用自动语音识别(ASR)来提高业务生产力、应答效率以及在线业务满意度。

接下来,小编通过本篇文章来讲述一下这背后的技术以及流程。

首先什么是ASR技术?

语音识别技术是一种将人的语音转换为文本的技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。简单来说,ASR技术就是将人的语言转化为计算机能够识别的文字的过程。

语音识别过程一般包括三个部分:

① 声学模型:描述在给定词的情况下,对应声学信号的概率。

② 语言模型:描述语言序列关系的模型,关注序列产生的概率。 

③ 解码器:根据声学模型和语言模型,搜索出最有可能的词序列,其本质是一个动态

规划算法。

语音识别的一般流程为根据输入的语音,提取语音特征,通过解码器融合训练好的语言模型和声学模型,得到最终的词序列结果。字典的作用根据声学模型识别出来的音素(汉语中一般为声韵母),来找到对应的汉字(词)或者单词,用来在声学模型和语言模型建立桥梁,将两者联系起来。

ASR技术的发展历程

语音识别技术在10年以前是统计模型;10年到20年,运用的模型包括了特征提取、声学模型,语言模型等模块,是一个pipeline的系统,而到了20年以后

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值