零基础语音识别task6 语音识别扩展阅读

最新推荐文章于 2022-11-19 16:47:46 发布

icdatsc

最新推荐文章于 2022-11-19 16:47:46 发布

阅读量359

点赞数

本文链接：https://blog.csdn.net/m0_57173763/article/details/116028719

版权

终于是到了最后一个任务了，真不容易~~坚持下来了，还是学到了不少东西，交了不少好友
最后的task，它对语音识别内容进行了扩展，更充分的了解到了机械学习算法和模型和深度学习在语音领域的应用
本文参考datawhile组织与天池联合发起的零基础入门系列赛事第八场 —— 零零基础入门语音识别-食物声音识别挑战赛
01 语音识别基础与发展
语音识别全称为“自动语音识别”，Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题，给定输入序列O={O1,…,On}，寻找最可能的词序列W={W1,…,Wm}，即寻找使得概率P(W|O)最大的词序列。用贝叶斯公式表示为：

在这里插入图片描述

其中P(O|W) 叫做声学模型，描述的是给定词W时声学观察为O的概率；P(W)叫做语言模型，负责计算某个词序列的概率；P(O)是观察序列的概率，是固定的，是固定的，所以只看分子部分即可。
语音选择的基本单位是帧（Frame），一帧数据是由一小段语音经过ASR前端的声学特征提取模块产生的，整段语音就可以整理为以帧为单位的向量组。每帧的维度固定不变，但跨度可调，以适应不同的文本单位，比如音素、字、词、句子。
大多数语音识别的研究都是分别求取声学和语言模型，并把很多精力放在声学模型的改进上。但后来，基于深度学习和大数据的端到端（End-to-End）方法发展起来，能将声学和语言模型融为一体，直接计算P(W|O)。

1.2 语音识别的发展
语音识别的发展
传统机器学习，基于统计的GMM-HMM，其中HMM （隐马尔可夫模型，Hidden Markov Model）用来描述信号动态特性（即语音信号相邻帧间的相关性），GMM（高斯混合模型，Gaussian Mixed Model）用来描述HMM每个状态的静态特性（即HMM每个状态下语音帧的分布规律）；

与深度学习结合，DNN-RNN、DNN-HMM，可引入LSTM（长短期记忆网络，Long Short-Term Memory），DNN（深度学习网络，Deep Neural Networks），RNN（循环神经网络，Recurrent Neural Network）；

迁移学习（Transfer learning）算法、以及注意力（Attention）机制的基于语音频谱图的CNN（卷积神经网络，Convolutional Neural Network）模型的兴起。
2，语音识别的方法
传统的语音识别需要把语音转换成语音特征向量，然后把这组向量通过机器学习，分类到各种音节上（根据语言模型），然后通过音节，还原出最大概率的语音原本要表达的单词（传统机械学习）
端到端学习的思路则非常简单：音频→学习算法→转录结果；（深度学习）

2.1声学模型
声学模型是一个混合(hybrid)模型，它包括用于序列跳转的隐马尔可夫模型(HMM)和根据当前帧来预测状态的深度神经网络。
**隐马尔可夫模型（Hidden Markov Model，HMM）
是用于建模离散时间序列的常见模型，它在语音识别中已经使用了几十年了他是结构最简单的动态贝叶斯网，这是一个著名的有向图模型，主要用于时序数据建模，在语音识别自然语言处理等领域有广泛应用
隐马尔可夫链简单用例子来表示就是今天是否下雨和前一天是否下雨有，我们知道前一天的湿度和今天的湿度等其他信息，通过这些已知的信息来推导未知的数据就是隐马尔可夫模型。
在这里插入图片描述
2.1.2 GMM
GMM（高斯混合模型，Gaussian Mixed Model）,主要就是通过GMM来求得某一音素（phoneme）的概率

2.2 语言模型
语言模型要解决的问题是如何计算 P(W)，常用的方法基于 n 元语法（n-gram Grammar）或RNN。
2.2.1 n-gram5
语言模型是典型的的自回归模型（Autoregressive Model），给定词序列W=[w1,w2,…,wm]，其概率表示为:
在这里插入图片描述
2.2.2 RNN语言模型
因为当前的结果依赖于之前的信息，因此可以天然地使用单向循环神经网络进行建模。单向循环神经网络训练的常规做法是，利用句子中的历史词汇来预测当前词，下图展示了RNN 语言模型的基本结构，其输出层往往较宽，每个输出节点对应一个词，整个输出层涵盖了语言模型所使用的词表，故其训练本质上也是分类器训练，每个节点的输出表示产生该节点词的概率，即 P(wi|w1, w2, …,wi−1)，故可以求出 P(W)。前向非循环神经网络也可以用于语言模型，此时其历史信息是固定长度的，同于n-gram

2.3 解码器
我们的最终目的是选择使得 P(W|O) = P(O|W)P(W) 最大的 W ，所以解码本质上是一个搜索问题，并可借助加权有限状态转换器（Weighted Finite State Transducer，WFST）统一进行最优路径搜索.

2.4 基于端到端学习的方法
端到端学习的思路则非常简单：音频→学习算法→转录结果；

而现在，我们可以直接通过深度学习将语音直接对标到我们最终显示出来的文本。
Attention机制通俗的讲就是把注意力集中放在重要的点上，而忽略其他不重要的因素。关于这个的解释个人感觉计算机视觉比NLP根据有直接的解释性。注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制。例如人的视觉在处理一张图片时，会通过快速扫描全局图像，获得需要重点关注的目标区域，也就是注意力焦点。然后对这一区域投入更多的注意力资源，以获得更多所需要关注的目标的细节信息，并抑制其它无用信息。
通过深度学习自己的特征学习功能来完成从特征提取到音节表达的整个过程。
3语音识别的应用与开发平台
关键词检出（KWS，Keyword Spotting）、唤醒词检测（Wake-up Word Detection，WUW），比如天猫精灵、小爱同学、hey sari、你好小娜；
声纹检测（VR，Voiceprint Recognition）、说话人识别（SR，Speaker Recognition），比如hey sari只能被手机主人唤醒；
语音识别（SR，Speech Recognition）、语种识别（Spoken Language Recognition）、情绪识别（Spoken Emotion Recognition, SER），比如输入法的文字输入，与sari、天猫精灵交流等；
语音合成（TTS，Text To Speech），将sari、天猫精灵的回复通过语音的形式播放；
这一系列的学习到这告一段落，很开心能在这个平台学到东西，未来继续加油

icdatsc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础语音识别task6 语音识别扩展阅读

终于是到了最后一个任务了，真不容易~~坚持下来了，还是学到了不少东西，交了不少好友最后的task，它对语音识别内容进行了扩展，更充分的了解到了机械学习算法和模型和深度学习在语音领域的应用本文参考datawhile组织与天池联合发起的零基础入门系列赛事第八场 —— 零零基础入门语音识别-食物声音识别挑战赛01 语音识别基础与发展语音识别全称为“自动语音识别”，Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题，给定输入序
复制链接

扫一扫