Audio-预训练模型(一):概述

基于判别学习的语音预训练模型的发展历程大致从DeepmindCPC开始,FAIRwav2vec系列工作(Wav2vec, Vq-wav2vec, Discret BERT, Wav2vec 2.0,Wav2vec-U)专注于语音识别任务,一步步将预训练模型从特征提取器发展到带有离散化模块的端到端的自监督训练模型,一步步地挑战更为困难的语音识别数据集,使用更少的有标注数据或者完全使用无标注的数据,取得更好的结果。近期FAIR又提出HuBERT模型直接使用MLM的方式预测事先聚类好的离散的target。以及近近近期Meta AIdata2vec模型直接使用掩码加在线蒸馏的方法不仅在语音ASR达到SOTA,还在图像和NLP领域也有强劲的实力。(从CPC到data2vec都是旨在提出一个语音/vision/NLP都可以使用的一个自监督学习方法,从RNN时代到Transformer时代,仿佛历经一场轮回,但其实发表时间只是时隔3年而已…)

再看谷歌这边使用自家的Conformer框架一次次的基于Wav2vec2.0自监督训练方法针对于语音识别任务"pushing the limits",把预训练模型做的更大更强,用1百万小时的youtube语音数据训练了8B参数的BigSSL,也把Wav2vec2.0和HuBERT模型结合提出了W2V-BERT模型,进一步刷新了自己的SOTA。

与此同时,微软也基于Wav2vec2.0提出了UniSpeec

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值