跟着无神一起读PAPERS 之Day2 BLIP-2:使用冻结图像编码器和大语言模型的自举法语言图形预训练

AIzealot无

已于 2023-09-21 16:42:39 修改

阅读量258

点赞数

分类专栏：跟无神学AI 文章标签：语言模型人工智能深度学习自然语言处理

于 2023-09-21 16:42:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72806612/article/details/133088362

版权

跟无神学AI 专栏收录该内容

41 篇文章 2 订阅

订阅专栏

一、前言

欢迎来到跟着无神读PAPERS系列之Day2！

本篇内容选自arXiv,cs:CV的康奈尔大学的国际互联网出版物。

这篇文章的主要贡献是提出了BLIP-2这种模型，是一种转换器，能和大语言模型LLMs结合，消除了图像和语言直接的不一致性。

其模型主要架构如下：

二、核心方法

2.1 Q-Former

这是一个可训练模块，用来解决编码器和已冻结的LLM的表示差别。

从一个图形编码器提取特征，一个提取图像特征的图像transformer 做image encoder，一个test transformer既是文本编码器，又是文本解码器。

将一些列查询嵌入层做图像转换器的输入，查询嵌入层通过自注意力层交互。

使用BERT的参数初始化Q-Former。

值得注意的是，查询嵌入层被看做模型的参数的组成部分。

通过这个Q-Former，能够提取最接近文字的图像信息。

2.2 从冻结图像编码器学习到的自举法图像语言表示

2.2.1 图像文字对比学习

使用这种图像对比学习的方式，使得文字和图像之间的表示信息被保存最大化。

2.2.2 基于图像的文字生成

使用了一种多峰的注意力机制mask，来控制图像和文字之间的信息交互。

2.2.3 图像文字匹配

这里使用二项的一个mask，目的是细粒度地学习图像文字的表示。

这里是一个二分类问题，是否是匹配的，主要过程是经过每一个query进行一个打分，然后最后将总的得分取平均值。

采用硬负采样方法产生负的图像文字对。

2.3 从冻结的大语言模型进行图像到文字的生成

从这里开始，训练好的Q-former可以进行一个信息的提取，再将提取到的信息喂给LLMs，利用大语言模型的产生式能力。

这里主要使用了两个预训练的图像转换模型：

将第一个的最后一层替换成了第二个。

使用了基于解码器的LLMs以及基于编码器解码器的LLMs。

三、模型的训练

两个阶段分别进行了6天和三天。

即分别是Q-former以及后面的LLMs

四、模型的微调

这里的微调工作主要是针对零次学习图像到文字生成；图像文字捕捉；图像的文字回答和图像文字检索这四个方面。

五、局限性

1.模型在VOA例子上体现不出来改善性的表现，这篇论文的研究者将之归之于数据集的局限。

2.继承了预训练的大模型的各种风险以及各种局限性（信息老、激活不正确的回答路径、泄露个人信息、使用冒犯、偏激的语言等）。

六、结语

至此，该文章的核心内容介绍完毕，有疑问可以评论区讨论。

欢迎关注无神一起读Papers。

码字不易，点赞收藏加关注。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。