语音学习Task6-语音识别基础拓展

最新推荐文章于 2024-01-11 01:12:51 发布

MashalC

最新推荐文章于 2024-01-11 01:12:51 发布

阅读量404

点赞数

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/MashalC/article/details/116014585

版权

一、语音识别主要任务

语音识别全称为“自动语音识别”，Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题，给定输入序列O={O1,…,On}，寻找最可能的词序列W={W1,…,Wm}，即寻找使得概率P(W|O)最大的词序列。用贝叶斯公式表示为：

在这里插入图片描述

其中P(O|W) 叫做声学模型，描述的是给定词W时声学观察为O的概率；P(W)叫做语言模型，负责计算某个词序列的概率；P(O)是观察序列的概率，是固定的，是固定的，所以只看分母部分即可。

二、语音识别方法介绍

1.声学模型

HMM:隐马尔可夫模型（Hidden Markov Model，HMM）是用于建模离散时间序列的常见模型.HMM 涉及的主要内容有，两组序列（隐含状态和观测值），三种概率（初始状态概率，状态转移概率，发射概率），和三个基本问题（产生观测序列的概率计算，最佳隐含状态序列的解码，模型本身的训练），以及这三个问题的常用算法（前向或后向算法，Viterbi 算法，EM 算法）。语音识别的最终应用对应的是解码问题，而对语音识别系统的评估、使用也叫做解码（Decoding）。
GMM:GMM（高斯混合模型，Gaussian Mixed Model）,主要就是通过GMM来求得某一音素（phoneme）的概率。

3.语言模型

n-gram：语言模型是典型的的自回归模型（Autoregressive Model）
RNN语言模型
基于端到端学习的方法

语音识别开发工具介绍

在这里插入图片描述

MashalC

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语音学习Task6-语音识别基础拓展

一、语音识别主要任务语音识别全称为“自动语音识别”，Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题，给定输入序列O={O1,…,On}，寻找最可能的词序列W={W1,…,Wm}，即寻找使得概率P(W|O)最大的词序列。用贝叶斯公式表示为：其中P(O|W) 叫做声学模型，描述的是给定词W时声学观察为O的概率；P(W)叫做语言模型，负责计算某个词序列的概率；P(O)是观察序列的概率，是固定的，是固定的，所以只看分母部分即
复制链接

扫一扫