deepspeech2

最新推荐文章于 2024-08-08 07:06:10 发布

蓝梦之旅

最新推荐文章于 2024-08-08 07:06:10 发布

阅读量2k

收藏 2

点赞数 1

分类专栏： tensorflow 文章标签： deepspeech2 thchs30

原文链接：https://blog.csdn.net/hw200855/article/details/89639304

版权

tensorflow 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

版权声明：本文为博主原创文章，遵循 CC 4.0 by-sa 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/hw200855/article/details/89639304

代码地址https://github.com/SeanNaren/deepspeech.pytorch

中文语音数据库采用thchs30

（1）首先提取data文件下的trn翻译文本，生成包含空格在内的生字表并保存为json格式lexicon.json，是汉字字典，不是拼音，我在这一步卡了很久，后来发现data_loader只能读取单个字符，所以中文识别的词汇表是翻译文本的汉字生字表

（2）生成train.csv，dev.csv，test.csv路径文件,包含wav位置和对应的trn翻译文本位置

（3）修改train.py中的这三个参数，分别是训练集，验证集和生字表

‘–train-manifest’

‘–val-manifest’

‘–labels-path’

（4）data_loader.py读取翻译到的翻译文本是以空格对词进行区别，在实际训练中效果很差，loss值一直降不下来。参考deepspeech v1将翻译文本改为以字加空格的格式

在165行读取翻译文本的时加入两行代码，得到单字+空格+单字…格式翻译文本

transcript=transcript.replace(' ','')
transcript=''.join([f + ' ' for f in transcript])

（5）进行训练，在30轮迭代后，验证集的wer降至5%左右，cer降至2.5%，在测试集的wer为50%，cer为25%

对thchs30数据集进行分析，发现翻译文本只有1000句，其中训练集包含750句，测试集包含250句，验证集使用的句子与训练集重合，这也解释了为什么在验证集识别结果极好，在测试机集效果极差的原因。数据集样本不够多，训练时出现过拟合，这也是测试集结果不佳的原因。

下面将改用aishell数据集对deepspeech v2进行进一步性能测试。

thchs30生字表和路径生成文件代码

链接：https://pan.baidu.com/s/1GUnsLbVweDrnZnmYdssMYg
提取码：y38d
————————————————
版权声明：本文为CSDN博主「hw200855」的原创文章，遵循CC 4.0 by-sa版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/hw200855/article/details/89639304

蓝梦之旅

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值