语音识别基础知识

最新推荐文章于 2022-11-28 22:16:20 发布

罐罐罐子

最新推荐文章于 2022-11-28 22:16:20 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/qq_33934600/article/details/115844517

版权

语音识别基础知识语音识别基础语音识别的发展语音识别方法声学模型HMMGMM语言模型n-gramRNN语言模型解码器基于端到端学习的方法语音识别的应用与开发工具语音识别的应用语音识别的开发工具语音识别基础语音识别全称为“自动语音识别”，Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题，给定输入序列O={O1,…,On}，寻找最可能的词序列W={W1,…,Wm}，即寻找使得概率P(W|O)最大的词序列。用贝叶斯公式表示为：

摘要由CSDN通过智能技术生成

语音识别基础知识

语音识别基础

语音识别全称为“自动语音识别”，Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题，给定输入序列O={O1,…,On}，寻找最可能的词序列W={W1,…,Wm}，即寻找使得概率P(W|O)最大的词序列。用贝叶斯公式表示为：

其中P(O|W) 叫做声学模型，描述的是给定词W时声学观察为O的概率；P(W)叫做语言模型，负责计算某个词序列的概率；P(O)是观察序列的概率，是固定的，是固定的，所以只看分母部分即可。

语音选择的基本单位是帧（Frame），一帧数据是由一小段语音经过ASR前端的声学特征提取模块产生的，整段语音就可以整理为以帧为单位的向量组。每帧的维度固定不变，但跨度可调，以适应不同的文本单位，比如音素、字、词、句子。

大多数语音识别的研究都是分别求取声学和语言模型，并把很多精力放在声学模型的改进上。但后来，基于深度学习和大数据的端到端（End-to-End）方法发展起来，能将声学和语言模型融为一体，直接计算P(W|O)。

语音识别的发展

传统机器学习，基于统计的GMM-HMM，其中HMM （隐马尔可夫模型，Hidden Markov Model）用来描述信号动态特性（即语音信号相邻帧间的相关性），GMM（高斯混合模型，Gaussian Mixed Model）用来描述HMM每个状态的静态特性（即HMM每个状态下语音帧的分布规律）；
与深度学习结合，DNN-RNN、DNN-HMM，可引入LSTM（长短期记忆网络，Long Short-Term Memory），DNN（深度学习网络，Deep Neural Networks），RNN（循环神经网络，Recurrent Neural Network）；
迁移学习（Transfer learning）算法、以及注意力（Attention）机制的基于语音频谱图的CNN（卷积神经网络，Convolutional Neural Network）模型的兴起。

语音识别方法

语音识别系统在长久的发展中形成了完整的流程（从前端语音信号处理，到声学模型和语言模型的训练，再到后端的解码），而深度学习方法较多地作用于声学模型和语言模型部分（或者端对端模型）。其中࿰

最低0.47元/天解锁文章

罐罐罐子

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
语音识别基础知识

语音识别基础知识语音识别基础语音识别的发展语音识别方法声学模型HMMGMM语言模型n-gramRNN语言模型解码器基于端到端学习的方法语音识别的应用与开发工具语音识别的应用语音识别的开发工具语音识别基础语音识别全称为“自动语音识别”，Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题，给定输入序列O={O1,…,On}，寻找最可能的词序列W={W1,…,Wm}，即寻找使得概率P(W|O)最大的词序列。用贝叶斯公式表示为：
复制链接

扫一扫