深度学习语音识别方法概述与分析

语音识别方法研究现状

随着人机交互技术越来越受到人们的重视,而人通过语音与计算机进行交互是除了手动键盘输入之外最自然最基本的交互方式,所以也越来越引起研究人员的关注。语音识别方法即自动语音识别( automatic speech recognition,ASR) 技术,主要是完成语音到文字的转变,属于非特定人语音识别。语音识别发展到现在,已经改变了人们生活的很多方面,从语音打字机、数据库检索到特定的环境所需的语音命令,给人们的生活带来了很多方便。

2006年,由于深度学习理论在机器学习中初步的成功应用,开始引起人们的关注。在接下来的几年里,机器学习领域的研究热点开始逐步地转向深度学习。深度学习使用多层的非线性结构将低层特征变换成更加抽象的高层特征,以有监督或者无监督的方法对输入特征进行变换,从而提升分类或者预测的准确性。深度学习模型一般是指更深层的结构模型,它比传统的浅层模型拥有更多层的非线性变换,在表达和建模能力上更加强大,在复杂信号的处理上会更具优势相比于传统的高斯混合模型-隐马尔科夫模型语音识别系统获得了超过20%的相对性能提升。此后,基于深度神经网络的声学模型逐渐替代了GMM 成为语音识别声学建模的主流模型,并极大地促进了语音识别技术的发展,突破了某些实际应用场景下对语音识别性能要求的瓶颈,使语音识别技术走向真正实用化。

目前许多国内外知名研究机构,如微软、讯飞、Google、IBM 都积极开展对深度学习的研究。在人们生活的应用层面上,由于移动设备对语音识别的需求与日俱增,以语音为主的移动终端应用不断融入人们的日常生活中,如国际市场上有苹果公司的Siri、微软的 Cortana 等虚拟语音助手; 国内有百度语音、科大讯飞等。还有语音搜索( VS) 、短信听写( SMD) 等语音应用都采用了最新的语音识别技术。现在,绝大多数的SMD系统的识别准确率都超过了90%,甚至有些超过了95%,这意味着新一轮的语音研究热潮正在不断兴起。

深度学习语音识别方法

这一章将详细介绍深度学习在语音识别领域的应用。包括深度学习进行语音识别的训练准则即目标函数;基于深度学习的语音识别模型、结构或类型;如何提高深度学习训练语音识别模型的效率;说话人自适应模型。

2.1  深度学习的语音识别模型训练准则

相比于传统的基于GMM-HMM的语音识别框架,其最大的改变是采用DNN替换GMM模型来对语音的观察概率进行建模。DNN相比于GMM的优势在于:(1)使用DNN估计 HMM状态的后验概率分布不需要对语音数据分布进行假设;(2)DNN的输入特征可以是多种特征的融合,包括离散或者连续的;(3)DNN可以利用相邻语音帧所包含的结构信息。

最初主流的深层神经网络是最简单的全连接神经网络(FNN)。对于1个包含 L个隐层的FNN,其整个模型可以表示为如下公式:

其中X表示输入层的语音特征;W,和b表示神经网络的参数;f表示隐层的激活函数。输出层采用softmax函数输出每个分类的后验概率。通过网络的输出和对应的标注可以设计相应的优化目标函数进行模型的优化。交叉熵 (Cross—entropy,CE)函数经常被用作优化目标函数。CE用来衡量目标输出概率分布和实际输出概率分布之间的相似程度,其值熵越小相似程度越高,从而模型的性能也就越好。FCEW=-r=1Nt=1Tlogyrt(srt) yrt(s)  表示在t时刻第r句话在状态s下对应的Softmax函数的输出值,<

  • 8
    点赞
  • 82
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
深度学习在语音识别领域的应用非常广泛。它可以用于训练语音识别模型的目标函数,以及改进语音识别模型的效率和准确率。许多知名研究机构和公司,如微软、讯飞、Google和IBM,都在积极研究深度学习在语音识别方面的应用。在人们的日常生活中,语音为主的移动终端应用也越来越普遍,比如苹果的Siri、微软的Cortana以及百度语音和科大讯飞等。这些应用都采用了最新的语音识别技术,使得语音搜索和短信听写等功能的识别准确率超过了90%甚至95%以上。因此,深度学习在语音识别领域的研究热潮正在不断兴起。\[1\]\[2\] 对于深度学习语音方向的正确步骤和节点,首先需要了解具体方向的语音特征。语音特征是指从语音信号中提取出的用于表示语音内容的特征。在深度学习语音识别中,了解和选择适合的语音特征是非常重要的第一步。\[3\] 综上所述,深度学习在语音识别领域有着广泛的应用,可以提高语音识别模型的准确率和效率。了解具体方向的语音特征是深度学习语音方向的正确步骤之一。 #### 引用[.reference_title] - *1* *2* [深度学习语音识别方法概述分析](https://blog.csdn.net/qq_35692819/article/details/105991438)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [深度学习语音方向入门步骤](https://blog.csdn.net/weixin_44908427/article/details/126385259)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值