2021-03-26

最新推荐文章于 2024-08-01 20:59:33 发布

喵小花是个程序媛

最新推荐文章于 2024-08-01 20:59:33 发布

阅读量151

点赞数

文章标签：人工智能语音识别自然语言处理

本文链接：https://blog.csdn.net/m110708/article/details/115219526

版权

论文：深度学习在语音识别中的应用综述（作者：王家、龙冬梅）

笔记：本文研究了深度学习对语音识别技术的推动作用。

1.基本概念：

RNN：循环神经网络，又名递归神经网络。主要用于解决输入数据的类型为序列，并且输出数据同为序列类型的机器学习问题。

LSTM：长短时记忆网络

GRU：

双向RNN：

CNN：卷积神经网络。特殊的深层前馈网络，该模型包括输入层、卷积层、池化层、全连接层、输出层。与RNN相比更有利于计算。

2.深度学习在语音识别中的应用模型：CTC（端到端）、RNN-T、LAS(端到端)。

CTC基于神经网络的时序分类模型，可以实现在线学习。

优点：不需要将数据和标注进行逐一对齐；直接输出序列预测的概率，不需要进行额外的处理。

RNN-T提供了语言模型建模能力，能够将语音模型与语言模型进行联合优化，便于实现在线语音识别。

RNN-T构成：一个RN结构实现声学模型的结构；另一个RNN 实现语言模型的结构。

LAS：完全使用深度学习模型将语音转换成字符的模型结构，基于注意力。

LAS三个组件：一个编码器（encode）、Attend（注意力机制）、一个解码器（decode）。

论文：语音识别技术综述（作者：范宝荣、薛宝珍、张天航）

1.定义：

语音识别（ASR）是企图使机器能“听懂”人类语言的技术，它又被称为自动语音识别或智能语音识别。

2.语音识别原理：

论文：端到端语音识别研究综述（作者：郭宗昱、刘博、吴可欣、李姝怡、蒋昊轩、李云洁）

1.端到端研究框架：

传统:HMM-GMM、HMM-DNN(DNN替换了GMM来对输入语音信号的观察概率进行建模)

端到端：基于CTC、基于注意力机制（AM）。

CTC解决了硬对齐问题，主要客服了数据对齐问题和直接输出目标转录两个困难，使用单个网络结构将输入序列直接映射到标签序列。