应用与交互,智能电话的几个重要模块

在信息交流的方式和语言上面,对于人类来说是一件很容易做的事。然而,于机器而言语音识别就不会那么简单了,其中涉及的技术以及逻辑都很繁琐。

语音识别,又称为自动语音识别(AutomaticSpeechRecognition,ASR),指计算机可以自动将人类的语音内容转换成相应的文本,然后呈现给人类的技术。语音识别技术已有50多年的历史。近年来,语音识别技术得到了广泛的应用才刚刚开始。随着移动设备、可穿戴设备、智能家居设备、智能电话机器人或系统的日益普及,对话交互逐渐成为人机交互的焦点。

1、语音识别的组成部分
语音识别主要由以下基本模块组成:信息处理与特征处理、声学模型(AM)、语言模型(LM)、发音(语音)字典和解码器。

信号处理和特征提取。
它是系统语音识别的第一个步骤,也是第一个部分。在接受原始的音频信号的同时还要为后续的升学模型提取适当的的代表性特征向量,就是由它来完成。在信号的处理方面,它能够在比较嘈杂的环境下把人声识别率提到最优解。

声学模型。
提到声学,就不得不提到大名鼎鼎隐马尔科夫模型,通常的语音识别系统都能通过这个模型对词、音节、音素等基本声学单元进行建模,然后生成模型。简单来讲就是对发声建模,把语言输出转换为声学输出。

语言模型。
语言模型用于对系统需求辨认的语言进行建模。各种语言模型,包括和上下文无关语句,都能够用作言语模型。现在,大多数语音辨认体系普遍采用计算N-gram模型及其变体。它能够通过训练学习单词和单词之间的联系来估量假设单词序列的可能性。

发音词典。
发音词典包含系统所能处理的单词的集合及其发音。发音词典得到了声学模型建模单元和语言模型建模单元之间的映射关系,将两者连接起来&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值