语音识别|基于CNN+DFSMN（完整版：向量+有步长因子）的声学模型实现及代码开源（tensorflow）

最新推荐文章于 2022-07-29 16:58:29 发布

nopSled

最新推荐文章于 2022-07-29 16:58:29 发布

阅读量3.5k

点赞数

分类专栏：语音-语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28385535/article/details/102717654

版权

语音-语音识别专栏收录该内容

9 篇文章 2 订阅

订阅专栏

由于我主要研究问答系统，因此本博客仅更新NLP及问答相关内容，最近创了一个群，如果大家感兴趣可加q群号：376564367
github:https://github.com/makeplanetoheaven/NlpModel/tree/master/SpeechRecognition/AcousticModel/dfsmn_v2

背景知识

FSMN和DFSMN系列模型的结构及其实现原理可参考如下两篇博客：
1.FSMN结构快速解读
2.DFSMN结构快速解读

基于CNN+DFSMN的声学模型实现

本模型是在传统CNN模型的基础上，引入2018年阿里提出的声学模型DFSMN，论文地址：https://arxiv.org/pdf/1803.05030.pdf。

该声学模型使用的输入是具有16KHZ采样率，单声道音频数据经过fbank特征提取以后的特征数据。

DFSMN结构如下图，与语音识别|基于CNN+DFSMN（简化版：标量+无步长因子）的声学模型实现及代码开源（keras）相比：

在这里插入图片描述

（1）简化版

在记忆单元计算上，使用的是类似sfsmn中的标量权重来计算第 $t$ 时刻的隐藏状态，且没有引入步长因子 $s t r i d e$ ，即

在这里插入图片描述

其中， $l$ 表示dfsmn的第 $l$ 层， $t$ 表示第 $t$ 时刻的隐藏状态， $l\_mem\_siz$ 表示前向记忆单元长度， $r\_mem\_siz$ 表示后向记忆单元长度， $mem\_weight$ 用于存储权重，是一个长度为 $l\_mem\_si+r\_mem\_siz+1$ 一维向量。

（2）完整版

在记忆单元计算上，使用的是类似vfsmn中的向量权重来计算第 $t$ 时刻的隐藏状态，且引入步长因子 $s t r i d e$ ，即

在这里插入图片描述

此时， $mem\_weight$ 是一个形状为 $l\_mem\_si+r\_mem\_siz+1，hidden\_num]$ 的二维矩阵。

在该模块中，主要包含了以下4个部分内容：

模型实现代码
模型调用方式
模型训练数据
已训练模型库

模型结构和模型调用方式和简化版基本相同，这里不再描述，主要区别在dfsmn单元的实现方式。

已训练模型库

Name	WER	date	link	extraction code	ps
3cnn[64-1]-6dfsmn[2048-512-20-20-2]-1289	16%	2020.1.5	点击	vzk4	该模型可继续训练，目前效果最好为13% WER

更新内容

2019.12.7

优化fbank特征提取方式，采用80维的log mel fbank
优化数据读取方式，模型训练前需要调用generate_data_set()函数
优化记忆单元的计算方式

2020.1.5

优化gpu模型训练方式，可指定具体的gpu核
引入混合精度进行模型训练,

Bug汇总

该模型由于v2版本记忆单元的计算方式，最少能够处理1.615s的音频文件，解决方案：1.在模型预测时可使用v1版本的记忆单元计算；2.对输入数据补长

关注

0
点赞
踩
26

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。