跟着无神一起读PAPERS 之Day2 BLIP-2:使用冻结图像编码器和大语言模型的自举法语言图形预训练

一、前言

欢迎来到跟着无神读PAPERS系列之Day2!

本篇内容选自arXiv,cs:CV的康奈尔大学的国际互联网出版物。

这篇文章的主要贡献是提出了BLIP-2这种模型,是一种转换器,能和大语言模型LLMs结合,消除了图像和语言直接的不一致性。

其模型主要架构如下:

二、核心方法

2.1 Q-Former

这是一个可训练模块,用来解决编码器和已冻结的LLM的表示差别。

从一个图形编码器提取特征,一个提取图像特征的图像transformer 做image encoder,一个test transformer既是文本编码器,又是文本解码器。

将一些列查询嵌入层做图像转换器的输入,查询嵌入层通过自注意力层交互。

使用BERT的参数初始化Q-Former。

值得注意的是,查询嵌入层被看做模型的参数的组成部分。

通过这个Q-Former,能够提取最接近文字的图像信息。

2.2 从冻结图像编码器学习到的自举法图像语言表示

2.2.1 图像文字对比学习

使用这种图像对比学习的方式,使得文字和图像之间的表示信息被保存最大化。

2.2.2 基于图像的文字生成

使用了一种多峰的注意力机制mask,来控制图像和文字之间的信息交互。

2.2.3 图像文字匹配

这里使用二项的一个mask,目的是细粒度地学习图像文字的表示。

这里是一个二分类问题,是否是匹配的,主要过程是经过每一个query进行一个打分,然后最后将总的得分取平均值。

采用硬负采样方法产生负的图像文字对。

2.3 从冻结的大语言模型进行图像到文字的生成

从这里开始,训练好的Q-former可以进行一个信息的提取,再将提取到的信息喂给LLMs,利用大语言模型的产生式能力。

这里主要使用了两个预训练的图像转换模型:

将第一个的最后一层替换成了第二个。

使用了基于解码器的LLMs以及基于编码器解码器的LLMs。

三、 模型的训练

两个阶段分别进行了6天和三天。

即分别是Q-former以及后面的LLMs

四、 模型的微调

这里的微调工作主要是针对零次学习图像到文字生成;图像文字捕捉;图像的文字回答和图像文字检索这四个方面。

五、局限性

1.模型在VOA例子上体现不出来改善性的表现,这篇论文的研究者将之归之于数据集的局限。

2.继承了预训练的大模型的各种风险以及各种局限性(信息老、激活不正确的回答路径、泄露个人信息、使用冒犯、偏激的语言等)。

六、结语

至此,该文章的核心内容介绍完毕,有疑问可以评论区讨论。

欢迎关注无神一起读Papers。

码字不易,点赞收藏加关注。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值