VLM （MLLM）系列——论文解读总结

TigerZ*

已于 2024-05-17 10:36:23 修改

阅读量276

点赞数

分类专栏： AIGC算法文章标签：深度学习人工智能计算机视觉 AIGC 图像处理算法

于 2024-02-05 19:33:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012863603/article/details/136046906

版权

AIGC算法专栏收录该内容

29 篇文章 9 订阅 ¥89.90 ¥99.00

订阅专栏

建议

以下几篇都看一下吧，因为这几篇相对出发点都有新意，并且也都在同期的思南评测中有排名。

CLIP

*数据：用了4亿的互联网自有图文对数据。

*模型：由一个视觉编码器、一个文本编码器

*训练：一阶段预训练，在 32768 的batch size 下做的对比学习。

中文CLIP

*数据：由LAION 5B等构成一个2亿的图文对数据。

*模型：整体和CLIP类似，由一个视觉编码器、一个文本编码器。

*训练：两阶段预训练，权重来自CLIP等。第一阶段32768的batch size下冻结图像编码器，训练文本编码器；第二阶段，训练图像和文本编码器，batch size 和学习率降低。

BLIP

*1数据：4M的混合数据，coco、LAION等。数据清洗流程capFlit。

*模型：统一了文本生成任务和图文检索任务。整体由图像编码器、bert 增加了cross attention、因果attention等。有ITC、ITM、ITG三个loss构成。

*训练：一阶段预训练，ITC仿照moco用了队列扩展大小，ITM采用了困难样本

了解本专栏

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
VLM （MLLM）系列——论文解读总结

从数据、模型、训练三个角度概述VLM也就是MLLM模型的内容，该综述能够快速对比论文的创新点等，非常适合初学者、学生、在职人员。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

TigerZ* 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。