人工智能之语音识别概述(一)

1. 语音是被研究对象和基本内容

语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言,最终目标是实现人与机器进行自然语言通信

语音识别的基本内容

  • 语音识别的定义
  • 语音识别发展历史
  • 语音识别系统框架

2 语音识别的定义

语音识别的定义
语音识别在狭义上有称为自动语音识别(Automatic Speech Recognition,ASR),它本质上是一种人机交互方式,就是让计算机通过识别和理解过程把人类的语音信号转变为想要的文本或者命令,以便计算机进行理解和产生相应的操作。
在这里插入图片描述
语音识别的应用
在这里插入图片描述

3 语音识别发展史

语音识别发展历程

  • 现代语音识别可以追溯到1952年,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统,从此正式开启了语音识别的进程。语音识别发展到今天已经有70多年,大致可以分为四个阶段。
    在这里插入图片描述

语音识别发展的初期

  • 70年代,语音识别主要集中在小词汇量、孤立词识别方面,使用的方法也主要是简单的模板匹配方法,即首先提取语音信号的特征构建参数模板,然后将测试语音与参考模板参数进行一一比较和匹配,取距离最近的样本所对应的词标注为该语音信号的发音。
  • 该方法对解决孤立词识别是有效的,但对于大词汇量、非特定人连续语音识别就无能为力

HMM-GMM时代

  • 基于GMM-HMM框架,研究者提出各种改进方法,如结合上下文信息的动态贝叶斯方法、区分性训练方法、自适应训练方法、HMM/NN混合模型方法等。这些方法都对语音识别研究产生了深远影响,并为下一代语音识别技术的产生做好了准备。

在这里插入图片描述

DNN-HMM时代

  • 2009年,Hinton将DNN应用于语音的声学建模,在TIMIT上获得了当时最好的结果。2011年底,微软研究院的俞栋、邓力又把DNN技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入DNN-HMM时代。

在这里插入图片描述

深度学习时代

  • 随着深度学习的发展,语音识别技术进入了端到端的技术阶段。端到端技术主要分成两类:一类是CTC方法,另一类是Sequence-to-Sequence方法。

在这里插入图片描述

语音识别技术发展历程

在这里插入图片描述

4 语音识别框架

语音对话系统的组成

  • 我们只关注语音识别系统,语音识别系统主要包含四个组成部分:特征提取和信号处理、声学模型(Acoustic Model)、语言模型(Language Model)和解码搜索部分。

在这里插入图片描述

语音识别系统的组成

-我们只关注语音识别系统,语音识别系统主要包含四个组成部分:特征提取和信号处理、声学模型(Acoustic Model)、语言模型(Language Model)和解码搜索部分。
在这里插入图片描述

  • 4
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值