语音-语音识别
文章平均质量分 91
语音-语音识别
nopSled
一周一更
展开
-
Conformer: Convolution-augmented Transformer for Speech Recognition翻译
摘要最近,在自动语音识别(ASR)领域,Transformer和卷积神经网络(CNN)的模型已经显示出较好的结果,且优于循环神经网络(RNN)。变压器模型擅长捕获基于内容的全局交互,而CNNS有效利用本地特征。在这项工作中,我们通过研究如何将卷积神经网络和变换器组合起来以以参数有效的方式建模音频序列的本地和全局依赖性来实现两全其美。为此,我们提出了卷积增强的变压器,用于语音识别,名为Conformer。符合子显着优于以前的变压器和基于CNN的模型,实现了最先进的精度。在广泛使用的LibrisPeech基准翻译 2021-10-28 17:17:44 · 2586 阅读 · 0 评论 -
A NOVEL LOSS FUNCTION FOR THE OVERALL RISK CRITERION BASED DISCRIMINATIVE TRAINING OF HMM MODELS翻译
摘要在本文中,我们提出了一种新的损失函数,用于隐马尔可夫模型的整体风险标准评估。对于连续语音识别,用于整体风险标准评估的所提出的损失函数旨在直接最大化训练数据上的单词识别准确性。我们为HMM参数提出了重新估计方程,该方程是使用扩展Baum-Welch算法(一种计算HMM参数的方法)推导出的。通过所提出的方法对HMM进行训练,已将TIMIT数据库上的音素识别任务的单词识别错误率降低了17.3%。1.介绍当前大多数自动语音识别器都使用最大后验(MAP)解码器,该解码器根据以下贝叶斯决策规则在给定声学观察结翻译 2020-07-19 14:52:11 · 242 阅读 · 0 评论 -
DEEP-FSMN FOR LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION翻译
摘要在本文中,我们通过在相邻层的记忆块之间引入残差连接,提出了一种改进的前馈序列记忆网络(FSMN)体系结构,即Deep-FSMN(DFSMN)。这些残差连接使信息能够跨不同层流动,从而减轻了在构建非常深的结构时的梯度消失问题。结果是,DFSMN显着受益于这些残差连接和深层结构。我们已经比较了在有和没有较低帧率(LFR)的情况下DFSMN与BLSTM在几种大型语音识别任务(包括英语和普通话)上的性能。实验结果表明,DFSMN可以始终以惊人的增益胜过BLSTM,尤其是在使用CD-Phone作为建模单元的LF翻译 2020-07-17 13:14:27 · 977 阅读 · 0 评论 -
Syllable-Based Acoustic Modeling with CTC-SMBR-LSTM翻译
摘要我们探讨了用音节而不是音素作为输出来训练长期短期记忆(LSTM)循环神经网络(RNN)的可行性。音节是建模自然语言(例如普通话)声学模型语言单位的一种自然选择,这是因为音节作为基本发音结构的固有性质以及此类语言的音节集合的大小有限(普通话约为1400个音节) 。我们的模型使用异步计算的随机梯度下降法(ASGD),通过并行计算基础结构进行大规模训练,并使用连续时序分类(CTC)和状态级最小贝叶斯任务(sMBR)损失进行了训练。我们的声学模型在每30毫秒计算一次的特征帧上运行,这使其非常适合于对音节建模,翻译 2020-07-08 13:12:01 · 488 阅读 · 0 评论 -
Lower Frame Rate Neural Network Acoustic Models翻译
摘要最近,使用连续时序分类(CTC)训练的神经网络声学模型被提出,作为传统的交叉熵训练的神经网络声学模型的替代方法,其中,交叉熵方法每10ms输出一帧。与传统模型相反,CTC联合声学模型一起学习对齐,并且除了传统声学状态单元外还输出空白符号。这允许CTC模型以低帧率运行,与传统模型中的10ms不同,其是每30ms输出一帧,从而提高了整体系统速度。在这项工作中,我们探索传统模型在低帧率下的行为。在一个大词汇量的语音搜索任务上,我们将证明,使用传统模型,与基于CTC的模型相比,我们可以将帧率降低到40ms,同翻译 2020-07-01 12:35:16 · 461 阅读 · 0 评论 -
DFSMN-SAN WITH PERSISTENT MEMORY MODEL FOR AUTOMATIC SPEECH RECOGNITION翻译
摘要self-attention网络(SAN)已被引入自动语音识别(ASR)中,并由于其捕获长期依赖的优秀能力而获得了最先进的性能。关键要素之一是可以在整个话语水平上有效执行的self-attention机制。在本文中,我们尝试调查是否可以利用超出整体话语水平的更多信息并从中受益。我们提出将具有增强记忆能力的self-attention层应用到ASR。具体而言,我们首先提出一种变体模型体系结构,该结构将深度前馈序列记忆网络(Deep Feed-Forward Sequential Memory Netwo翻译 2020-06-17 13:22:22 · 468 阅读 · 0 评论 -
WAV2LETTER++: THE FASTEST OPEN-SOURCE SPEECH RECOGNITION SYSTEM
摘要本文介绍了wav2letter++,这是最快的开源深度学习语音识别框架。wav2letter++完全用C++编写,并使用ArrayFire张量库来获得最大效率。本文中,我们解释了wav2letter++系统的体系结构和设计,并将其与其他主要的开源语音识别系统进行了比较。在某些情况下,wav2letter++比其他用于训练端到端神经网络进行语音识别的优化框架快2倍以上。我们还显示,对于具有1亿个参数的模型,wav2letter++的训练时间线性扩展至我们测试的最高64个GPU。高性能框架支持快速迭代,这翻译 2020-06-11 14:06:41 · 379 阅读 · 0 评论 -
语音识别|基于CNN+DFSMN(完整版:向量+有步长因子)的声学模型实现及代码开源(tensorflow)
由于我主要研究问答系统,因此本博客仅更新NLP及问答相关内容,最近创了一个群,如果大家感兴趣可加q群号:376564367github:https://github.com/makeplanetoheaven/NlpModel/tree/master/SpeechRecognition/AcousticModel/dfsmn_v2背景知识FSMN和DFSMN系列模型的结构及其实现原理可参考如...原创 2019-10-24 11:02:15 · 3548 阅读 · 5 评论 -
语音识别|基于CNN+DFSMN(简化版:标量+无步长因子)的声学模型实现及代码开源(keras)
github:https://github.com/makeplanetoheaven/NlpModel/tree/master/SimNet/TransformerDSSM背景知识FSMN和DFSMN系列模型的背景知识可参考如下两篇博客:1.FSMN结构快速解读2.DFSMN结构快速解读基于CNN+DFSMN的声学模型实现本模型是在传统CNN模型的基础上,引入2018年阿里提出的声学...原创 2019-09-02 12:48:00 · 3818 阅读 · 35 评论