2021-03-26

论文:深度学习在语音识别中的应用综述(作者:王家、龙冬梅)

笔记:本文研究了深度学习对语音识别技术的推动作用。

1.基本概念:

        RNN:循环神经网络,又名递归神经网络。主要用于解决输入数据的类型为序列,并且输出数据同为序列类型的机器学习问题。

       LSTM:长短时记忆网络

       GRU:

       双向RNN:

       CNN:卷积神经网络。特殊的深层前馈网络,该模型包括输入层、卷积层、池化层、全连接层、输出层。与RNN相比更有利于计算。

2.深度学习在语音识别中的应用模型:CTC(端到端)、RNN-T、LAS(端到端)。

     CTC基于神经网络的时序分类模型,可以实现在线学习。

     优点:不需要将数据和标注进行逐一对齐;直接输出序列预测的概率,不需要进行额外的处理。

    RNN-T提供了语言模型建模能力,能够将语音模型与语言模型进行联合优化,便于实现在线语音识别。

   RNN-T构成:一个RN结构实现声学模型的结构;另一个RNN 实现语言模型的结构。

     LAS:完全使用深度学习模型将语音转换成字符的模型结构,基于注意力。

      LAS三个组件:一个编码器(encode)、Attend(注意力机制)、一个解码器(decode)。

 

论文:语音识别技术综述(作者:范宝荣、薛宝珍、张天航)

1.定义:

    语音识别(ASR)是企图使机器能“听懂”人类语言的技术,它又被称为自动语音识别或智能语音识别。

2.语音识别原理:

 

 

论文:端到端语音识别研究综述(作者:郭宗昱、 刘 博 、吴可欣 、李姝怡 、蒋昊轩 、李云洁

1.端到端研究框架:

传统:HMM-GMM、HMM-DNN(DNN替换了GMM来对输入语音信号的观察概率进行建模)

端到端:基于CTC、基于注意力机制(AM)。

            CTC解决了硬对齐问题,主要客服了数据对齐问题和直接输出目标转录两个困难,使用单个网络结构将输入序列直接映射到标签序列。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
2021-03-26 20:54:33,596 - Model - INFO - Epoch 1 (1/200): 2021-03-26 20:57:40,380 - Model - INFO - Train Instance Accuracy: 0.571037 2021-03-26 20:58:16,623 - Model - INFO - Test Instance Accuracy: 0.718528, Class Accuracy: 0.627357 2021-03-26 20:58:16,623 - Model - INFO - Best Instance Accuracy: 0.718528, Class Accuracy: 0.627357 2021-03-26 20:58:16,623 - Model - INFO - Save model... 2021-03-26 20:58:16,623 - Model - INFO - Saving at log/classification/pointnet2_msg_normals/checkpoints/best_model.pth 2021-03-26 20:58:16,698 - Model - INFO - Epoch 2 (2/200): 2021-03-26 21:01:26,685 - Model - INFO - Train Instance Accuracy: 0.727947 2021-03-26 21:02:03,642 - Model - INFO - Test Instance Accuracy: 0.790858, Class Accuracy: 0.702316 2021-03-26 21:02:03,642 - Model - INFO - Best Instance Accuracy: 0.790858, Class Accuracy: 0.702316 2021-03-26 21:02:03,642 - Model - INFO - Save model... 2021-03-26 21:02:03,643 - Model - INFO - Saving at log/classification/pointnet2_msg_normals/checkpoints/best_model.pth 2021-03-26 21:02:03,746 - Model - INFO - Epoch 3 (3/200): 2021-03-26 21:05:15,349 - Model - INFO - Train Instance Accuracy: 0.781606 2021-03-26 21:05:51,538 - Model - INFO - Test Instance Accuracy: 0.803641, Class Accuracy: 0.738575 2021-03-26 21:05:51,538 - Model - INFO - Best Instance Accuracy: 0.803641, Class Accuracy: 0.738575 2021-03-26 21:05:51,539 - Model - INFO - Save model... 2021-03-26 21:05:51,539 - Model - INFO - Saving at log/classification/pointnet2_msg_normals/checkpoints/best_model.pth 我有类似于这样的一段txt文件,请你帮我写一段代码来可视化这些训练结果
02-06
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值