论文:深度学习在语音识别中的应用综述(作者:王家、龙冬梅)
笔记:本文研究了深度学习对语音识别技术的推动作用。
1.基本概念:
RNN:循环神经网络,又名递归神经网络。主要用于解决输入数据的类型为序列,并且输出数据同为序列类型的机器学习问题。
LSTM:长短时记忆网络
GRU:
双向RNN:
CNN:卷积神经网络。特殊的深层前馈网络,该模型包括输入层、卷积层、池化层、全连接层、输出层。与RNN相比更有利于计算。
2.深度学习在语音识别中的应用模型:CTC(端到端)、RNN-T、LAS(端到端)。
CTC基于神经网络的时序分类模型,可以实现在线学习。
优点:不需要将数据和标注进行逐一对齐;直接输出序列预测的概率,不需要进行额外的处理。
RNN-T提供了语言模型建模能力,能够将语音模型与语言模型进行联合优化,便于实现在线语音识别。
RNN-T构成:一个RN结构实现声学模型的结构;另一个RNN 实现语言模型的结构。
LAS:完全使用深度学习模型将语音转换成字符的模型结构,基于注意力。
LAS三个组件:一个编码器(encode)、Attend(注意力机制)、一个解码器(decode)。
论文:语音识别技术综述(作者:范宝荣、薛宝珍、张天航)
1.定义:
语音识别(ASR)是企图使机器能“听懂”人类语言的技术,它又被称为自动语音识别或智能语音识别。
2.语音识别原理:
论文:端到端语音识别研究综述(作者:郭宗昱、 刘 博 、吴可欣 、李姝怡 、蒋昊轩 、李云洁)
1.端到端研究框架:
传统:HMM-GMM、HMM-DNN(DNN替换了GMM来对输入语音信号的观察概率进行建模)
端到端:基于CTC、基于注意力机制(AM)。
CTC解决了硬对齐问题,主要客服了数据对齐问题和直接输出目标转录两个困难,使用单个网络结构将输入序列直接映射到标签序列。