【arxiv】data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language

lynn_Dai

已于 2023-03-29 19:49:56 修改

阅读量283

点赞数

分类专栏：阅读笔记文章标签：人工智能深度学习机器学习

于 2023-03-29 18:21:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lynn_Dai/article/details/129842332

版权

阅读笔记专栏收录该内容

17 篇文章 0 订阅

订阅专栏

论文 & 代码
Meta AI 首个多模态自监督算法

摘要

虽然自监督学习的一般思想在模态之间是相同的，但实际的算法和目标差异很大，因为它们是在考虑到单一模态的情况下开发的。
data2vec核心思想是在使用标准Transformer体系结构的自蒸馏设置中，基于输入的mask视图预测完整输入数据的潜在表示。data2vec 不是预测本质上是局部的人类语音的单词、视觉标记或单元等特定于模态的目标，而是预测包含来自整个输入的信息的上下文潜在表示。在语音识别、图像分类和自然语言理解的主要基准上的实验表明，与主要方法相比，一种新的最先进或具有竞争力的性能。

data2vec 训练方式是通过在给定输入的部分视图的情况下预测完整输入模型表示（如下图所示）：首先 data2vec 对训练样本的掩码版本（学生模型）进行编码，然后通过使用相同模型参数化为模型权重的指数移动平均值（教师模型）对输入样本的未掩码版本进行编码来构建训练目标表示。目标表示对训练样本中的所有信息进行编码，学习任务是让学生在给定输入部分视图的情况下预测这些表示。
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。