百分点感知智能实验室:语音识别技术发展阶段探究

编者按:在人工智能飞速发展的今天,语音识别技术成为很多设备的标配,过去五年间,语音识别的需求逐渐爆发。然而,目前语音识别相关的应用及使用场景仍具有局限性,因此,国内外众多企业纷纷开始探索语音识别的新算法新策略。
本文中,百分点感知智能实验室从技术发展的角度出发,深入分析了语音识别技术不同发展阶段的模型构建和优化,以及未来发展趋势。
语音识别技术简单的说,就是将计算机接收到的音频信号转换为相应的文字。语音识别技术从上个世纪50年代出现,发展到现在已有半个多世纪的历史。经过多轮技术迭代,语音识别已经从最早的孤立数字识别,发展到今天复杂环境下的连续语音识别,并且已经应用到各种电子产品中,为人们的日常生活带来许多便利。
从技术发展的历史来讲,语音识别技术主要经历了三个时代,即基于模版匹配的技术框架、基于统计机器学习的技术框架和最新的端到端技术框架。近年来,得益于深度学习技术突破性的进展,以及移动互联网的普及带来的海量数据的积累,语音识别已经达到了非常高的准确率,在某些数据集上甚至超过了人类的识别能力。
随着识别准确率的提升,研究者们的关注点也从语音识别的准确率,渐渐转移到了一些更加复杂的问题上,比如多语种混合语音识别。该问题涉及到多语种混合建模、迁移学习和小样本学习等技术。对某些小语种来说,由于无法获得足够多的训练样本,因此,如何从小样本数据中构建可靠的语音识别系统成为一个待解决的难题。
针对该问题,百分点科技提出了一系列的算法,针对小语种语音识别系统构建中出现的训练样本获得困难、文本书写规则复杂、发音单元不统一等问题作了相应的优化。基于这些技术,百分点科技已经成功研发出数十种小语种语音识别系统,在支持语种的数量,以及识别准确率上都处于国内领先地位。
接下来的章节中,将重点介绍语音识别技术不同发展阶段经历的重要技术框架,包括传统的HMM-GMM和HMM-DNN,以及最新的端到端方法等。
一、GMM-HMM/DNN-HMM
GMM-HMM
先从GMM-HMM开始说,GMM-HMM基本使用HTK或者Kaldi进行开发。在2010年之前,整个语音识别领域都是在GMM-HMM里做一些文章,如图一所示。

图一 GMM-HMM框架
我们的语音通过特征提取后,利用混合高斯模(GMM)来对特征进行建模。这里的建模单元是cd-states,cd-states的具体生成方法如图二所示。

图二 cd-states的生成方法
建模单元在GMM-HMM时代,或者DNN-HMM时代,基本没有太多创新,大多使用tied triphone,即senone,下图描述了GMM-HMM的整体过程。

图三 GMM-HMM的整体过程
图三展示了基本的训练前准备,此外就是纯训练的过程。纯训练解决的是如何将图三右边的特征向量分配到左边状态序列里的问题。
DNN-HMM
在2010年前后,由于深度学习的发展,整个语音识别的框架开始转变成DNN-HMM。其实就是把原来用GMM对特征进行建模,转换成用神经网络去建模。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值