一、前言
欢迎来到跟着无神读PAPERS系列之Day2!
本篇内容选自arXiv,cs:CV的康奈尔大学的国际互联网出版物。
这篇文章的主要贡献是提出了BLIP-2这种模型,是一种转换器,能和大语言模型LLMs结合,消除了图像和语言直接的不一致性。
其模型主要架构如下:
二、核心方法
2.1 Q-Former
这是一个可训练模块,用来解决编码器和已冻结的LLM的表示差别。
从一个图形编码器提取特征,一个提取图像特征的图像transformer 做image encoder,一个test transformer既是文本编码器,又是文本解码器。
将一些列查询嵌入层做图像转换器的输入,查询嵌入层通过自注意力层交互。
使用BERT的参数初始化Q-Former。
值得注意的是,查询嵌入层被看做模型的参数的组成部分。
通过这个Q-Former,能够提取最接近文字的图像信息。
2.2 从冻结图像编码器学习到的自举法图像语言表示
2.2.1 图像文字对比学习
使用这种图像对比学习的方式,使得文字和图像之间的表示信息被保存最大化。
2.2.2 基于图像的文字生成
使用了一种多峰的注意力机制mask,来控制图像和文字之间的信息交互。
2.2.3 图像文字匹配
这里使用二项的一个mask,目的是细粒度地学习图像文字的表示。
这里是一个二分类问题,是否是匹配的,主要过程是经过每一个query进行一个打分,然后最后将总的得分取平均值。
采用硬负采样方法产生负的图像文字对。
2.3 从冻结的大语言模型进行图像到文字的生成
从这里开始,训练好的Q-former可以进行一个信息的提取,再将提取到的信息喂给LLMs,利用大语言模型的产生式能力。
这里主要使用了两个预训练的图像转换模型:
将第一个的最后一层替换成了第二个。
使用了基于解码器的LLMs以及基于编码器解码器的LLMs。
三、 模型的训练
两个阶段分别进行了6天和三天。
即分别是Q-former以及后面的LLMs
四、 模型的微调
这里的微调工作主要是针对零次学习图像到文字生成;图像文字捕捉;图像的文字回答和图像文字检索这四个方面。
五、局限性
1.模型在VOA例子上体现不出来改善性的表现,这篇论文的研究者将之归之于数据集的局限。
2.继承了预训练的大模型的各种风险以及各种局限性(信息老、激活不正确的回答路径、泄露个人信息、使用冒犯、偏激的语言等)。
六、结语
至此,该文章的核心内容介绍完毕,有疑问可以评论区讨论。
欢迎关注无神一起读Papers。
码字不易,点赞收藏加关注。