Audio-预训练模型（一）：概述

u013250861

已于 2024-02-17 00:06:17 修改

阅读量1.5k

点赞数

分类专栏： # Audio/预训练模型文章标签：语音 Audio

于 2022-10-28 10:17:38 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/127566554

版权

Audio/预训练模型专栏收录该内容

10 篇文章 10 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

基于判别学习的语音预训练模型的发展历程大致从Deepmind的CPC开始，FAIR的wav2vec系列工作（Wav2vec, Vq-wav2vec, Discret BERT, Wav2vec 2.0，Wav2vec-U）专注于语音识别任务，一步步将预训练模型从特征提取器发展到带有离散化模块的端到端的自监督训练模型，一步步地挑战更为困难的语音识别数据集，使用更少的有标注数据或者完全使用无标注的数据，取得更好的结果。近期FAIR又提出HuBERT模型直接使用MLM的方式预测事先聚类好的离散的target。以及近近近期Meta AI的data2vec模型直接使用掩码加在线蒸馏的方法不仅在语音ASR达到SOTA，还在图像和NLP领域也有强劲的实力。（从CPC到data2vec都是旨在提出一个语音/vision/NLP都可以使用的一个自监督学习方法，从RNN时代到Transformer时代，仿佛历经一场轮回，但其实发表时间只是时隔3年而已…）

再看谷歌这边使用自家的Conformer框架一次次的基于Wav2vec2.0自监督训练方法针对于语音识别任务"pushing the limits"，把预训练模型做的更大更强，用1百万小时的youtube语音数据训练了8B参数的BigSSL，也把Wav2vec2.0和HuBERT模型结合提出了W2V-BERT模型，进一步刷新了自己的SOTA。

与此同时，微软也基于Wav2vec2.0提出了UniSpeec

了解本专栏

超级会员免费看

u013250861

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Audio-预训练模型（一）：概述

专注于语音识别任务，一步步将预训练模型从特征提取器发展到带有离散化模块的端到端的自监督训练模型，一步步地挑战更为困难的语音识别数据集，使用更少的有标注数据或者完全使用无标注的数据，取得更好的结果。模型，通过加入句子混杂增强和句子之间的对比学习有效提升模型在speaker相关任务上的结果。模型，通过让中间层也去预测target使ASR结果明显提升（与data2vec比肩的结果），针对Speaker相关的任务提出了。"，把预训练模型做的更大更强，用1百万小时的youtube语音数据训练了8B参数的。
复制链接

扫一扫