论文阅读——Mockingjay: unsupervised speech representation learning

最新推荐文章于 2023-07-23 17:24:21 发布

没有热情得活着不如死去

最新推荐文章于 2023-07-23 17:24:21 发布

阅读量1k

点赞数 2

文章标签：深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/simonsmile/article/details/107911503

版权

《Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer Encoders》

原文地址：https://arxiv.org/abs/1910.12638v2

摘要

文章提出了一种新的语音表示学习方法——Mockingjay。该方法使用双向的Transformer Encoder在大规模无标签数据集上预训练，它是根据过去（past）和未来（future）的帧来共同预测当前的帧。通过这个方法得到的语音表示广泛地提高了下游任务的表现，例如音素分类、语音识别、基于语音的情感分析等。除此之外，实验证明用Mockingjay方法进行预训练，然后再用其他下游任务进行微调，能够极大得提高表现。

引入

Speech Representation Learning的目的就是找到一种语音表示方法（就像词向量是为了找到一种词的表示方法），文章提出了Mockingjay方法。Mockingjay使用多层transformer encoders和multi-head self-attention，构成双向encoder；而为了进行无监督预训练，文章还提出了Masked Acoustic Model(MAM)任务，Mockingjay通过完成该任务来得到语音表示。而Mockingjay这个词本身指的是一种鸟，它能够模仿人发出的声音。

MOCKINGJAY

Mask Acoustic Modeling

mask acoustic modeling任务预训练方法如下图所示。MAM选择15%

最低0.47元/天解锁文章

没有热情得活着不如死去

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文阅读——Mockingjay: unsupervised speech representation learning

《Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer Encoders》原文地址：https://arxiv.org/abs/1910.12638v2摘要文章提出了一种新的语音表示学习方法——Mockingjay。该方法使用双向的Transformer Encoder在大规模无标签数据集上预训练，它是根据过去（past）和未来（future）的帧来共同预测当前的帧。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。