BEIT-3杂谈

paper: BEIT-3

看到这篇的人应该都知道这篇文章的多任务SOTA结果了,我就不放那张披萨图了。
在这里插入图片描述
论文中没有给具体的预训练方法图,大概就参考上面这张Beit的图吧,Beit-3就是变成了多模态输入。跟MAE很像,主要区别在他不是还原像素、text,而是还原embedding or token

至于token是怎么来的,还得再看两篇文章,等我后面再补。

说一下我的看法吧。
这篇工作的主要的特点:

  1. 只用了MLM一种预训练方法,且还原token并不还原原图/原text。
  2. 使用Multiway Transformer,给不同模态单独encode的空间
  3. 数据集并不很大(相比CLIP之类),Batch Size并不很大(相比CLIP),整体网络结构很大(参数量多)
    Note: 1.9Billion参数量实际并不算很大,相对SwinT的3billion

最主要的问题,凭什么超越CLIP
猜想:
(1)数据噪声小
因为MLM方法不一定需要图像-文本对,所以可以利用现有的标注较好的公开数据集,而CLIP的数据由网络采集,难免很多噪声。
(2)token重建或许比原始data重建更好?更少噪声?

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值