Speech recognition using deep neural network: A systematic review 论文简述

这是篇2019年的关于语音的综述论文,主要做了一些统计工作

论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8632885

作者:ALI BOU NASSIF, ISMAIL SHAHIN, IMTINAN ATTILI, MOHAMMAD AZZEH, AND KHALED SHAALAN

这篇文章对2006年到2018年的利用深度学习进行语音识别的174篇文献进行了归类整理,对论文所用到的模型,数据,研究的问题等进行了分类统计,并以表格展示,回答了8个问题。

研究问题:

1. 研究中包括哪些不同类型的论文?

2.在研究的论文中有那些不同的语音鉴别方法

3.在每篇文献中有哪些数据集用来训练和测试

4.在研究论文中使用了哪些不同的语言?

5.研究是在什么样的环境下进行的?

6.如何从语音中获得特征

7.文献中使用了哪些评估技术

8.用了哪些深度神经网络

结论:

1. 研究中包括哪些不同类型的论文?

论文来源比例图:

会议论文来源表格:(注:第二列表格中的标号为论文的编号)

期刊论文来源表格:

2.在研究的论文中有那些不同的语音识别方法

上图中other包括:speaker veri cation, language identi cation, speech
pattern classi cation and spoken language understanding.

语音识别中具体分类表格:

上图other为没有具体提到类别的论文

3.在每篇文献中有哪些数据集用来训练和测试

分为公共数据集和私有数据集

公共数据集包括:TIMIT dataset, ATIS
dataset, Switchboard Hub5 task, Aurora 4, Babel corpus,
AMI corpus1 among others.

4.在研究论文中使用了哪些不同的语言?

5.研究是在什么样的环境下进行的?

没有提到环境的和提到环境为中立(Neutral)的均为中立的

6.如何从语音中获得特征(并没有表^*^)

melfrequency cepstrum coef cients (MFCCs):69.5% (121 papers)

linear discriminate analysis (LDA)transform  :10% 

HLDA transform:5% 

short time Fourier transform(STFT):2% 

other:

MLLT, perceptual linear predictive (PLP),

log power spectral (LPS),

Bark-frequency cepstrum coef cients(BFCC),

batch normalization,

maximum likelihood lineartransform (MLLT),

residual connections.

7.文献中使用了哪些评估技术

上图other:Root Mean Square Error (RMSE),
Sentence Accuracy, Query Error Rate (QER), unweighted
classi cation accuracy, Gain in dB among others.

8.用了哪些深度神经网络

混合模型表:

总表:

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值