在过去的十年里,人工智能驱动的语音识别系统已经慢慢成为我们日常生活的一部分,从语音搜索到客服中心、汽车、医院和餐厅里的虚拟助理。许多行业都在使用自动语音识别(ASR)来提高业务生产力、应答效率以及在线业务满意度。
接下来,小编通过本篇文章来讲述一下这背后的技术以及流程。
首先什么是ASR技术?
语音识别技术是一种将人的语音转换为文本的技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。简单来说,ASR技术就是将人的语言转化为计算机能够识别的文字的过程。
语音识别过程一般包括三个部分:
① 声学模型:描述在给定词的情况下,对应声学信号的概率。
② 语言模型:描述语言序列关系的模型,关注序列产生的概率。
③ 解码器:根据声学模型和语言模型,搜索出最有可能的词序列,其本质是一个动态
规划算法。
语音识别的一般流程为根据输入的语音,提取语音特征,通过解码器融合训练好的语言模型和声学模型,得到最终的词序列结果。字典的作用根据声学模型识别出来的音素(汉语中一般为声韵母),来找到对应的汉字(词)或者单词,用来在声学模型和语言模型建立桥梁,将两者联系起来。
ASR技术的发展历程
语音识别技术在10年以前是统计模型;10年到20年,运用的模型包括了特征提取、声学模型,语言模型等模块,是一个pipeline的系统,而到了20年以后