SpecAugment

最新推荐文章于 2024-04-19 09:34:44 发布

翁卓

最新推荐文章于 2024-04-19 09:34:44 发布

阅读量1.3k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/libeicuo8108/article/details/105847455

版权

论文地址：https://arxiv.org/pdf/1904.08779.pdf

Augmentation Policy

我们旨在构建一种直接作用于log mel频谱图的增强策略，以帮助网络学习有用的功能。出于以下目的的动机：这些功能应对时间方向的变形，频率信息的部分丢失和小部分语音片段具有较强的鲁棒性，因此我们选择了以下变形来制定策略：
1、时间warp 是通过tensorflow的sparse_image_warp函数实现的。给定具有τ个时间步长的对数梅尔频谱图，我们将其视为时间轴为水平而频率轴为垂直的图像。沿水平线在时间步长（W，τ-W）内穿过图像中心的随机点应向左或向右弯曲距离w，该距离应从0到时间扭曲的均匀分布中选择沿该线的参数W。我们在边界上固定六个锚点-垂直边缘的四个角和中点

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

翁卓 CSDN认证博客专家 CSDN认证企业博客

码龄9年

59: 原创

11万+: 周排名

232万+: 总排名

4万+: 访问

: 等级

902: 积分

8: 粉丝

12: 获赞

6: 评论

53: 收藏

私信

关注

热门文章

分类专栏

asr 端到端 9篇
NLP 1篇
ML机器学习 3篇
C++ 4篇
Python 2篇
面试
笔试 5篇
ASR 16篇
每日记录 14篇

最新评论

Kaldi当中语音数据增强有什么方法
??light?: 既用spec-augment-layer增强也用速度和音量的脚本扰动有必要吗
kaldi-gop
wyw0000: 模型貌似只能自己训练，因为必须用nnet3模型，而开放的nnet3模型在网上找不到，用chain模型效果比较差！
kaldi-gop
好快的剑: 同问。是用librispeech的声学模型，还是用自己的数据再训练一个呢？？？
Kaldi当中语音数据增强有什么方法
jianghusanren3: 博主您好，请问perturb_data_dir_speed_3way.sh应该要怎么用呀
kaldi-gop
·Barton·: 哥们儿声学模型是你自己训练的吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。