paper: BEIT-3
看到这篇的人应该都知道这篇文章的多任务SOTA结果了,我就不放那张披萨图了。
论文中没有给具体的预训练方法图,大概就参考上面这张Beit的图吧,Beit-3就是变成了多模态输入。跟MAE很像,主要区别在他不是还原像素、text,而是还原embedding or token。
至于token是怎么来的,还得再看两篇文章,等我后面再补。
说一下我的看法吧。
这篇工作的主要的特点:
- 只用了MLM一种预训练方法,且还原token并不还原原图/原text。
- 使用Multiway Transformer,给不同模态单独encode的空间
- 数据集并不很大(相比CLIP之类),Batch Size并不很大(相比CLIP),整体网络结构很大(参数量多)
Note: 1.9Billion参数量实际并不算很大,相对SwinT的3billion
最主要的问题,凭什么超越CLIP?
猜想:
(1)数据噪声小
因为MLM方法不一定需要图像-文本对,所以可以利用现有的标注较好的公开数据集,而CLIP的数据由网络采集,难免很多噪声。
(2)token重建或许比原始data重建更好?更少噪声?