Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models

paper : link
github: link
两点:
(1)增大图像分辨率
(2)丰富图像caption
看起来都是很简单的方法,但是真正做的时候就会遇到各种问题

增大图像分辨率

  1. 将小图插值,还是直接训练时就用大分辨率的图像?
    注:常规用的224x224算小图,对于LLM来说细节信息还是不够
    答=>训练时用大分辨率的图像
    这时候就会产生两个问题:
    (1)测试的时候只有分辨率低的图像怎么办?
    (2)大分辨率图像如何编码?ps: 预训练的CLIP往往只能编码小分辨率的图像,因为训练的时候就是这样
  2. 先看第二个问题,有了大分辨率的图像之后如何编码?
    答:分块->编码->采样
    如下图所示:
    在这里插入图片描述
    最右侧是原图,896x1344,假设将其切成6块448x448的小图,分别送进clip-vit,同时将原图缩放为448x448,得到局部特征。同样用clip-vit编码后得到全局特征
    对比一下,假如不分块,则首先将原图缩放为448x448,然后送入clip,虽然仍然会得到[cls] token对应的全局特征与每个patch的局部特征,但局部特征是缩放后的patch得到的,而上述方法直接对pixel维度分块,然后分别编码,得到的局部特征的信息量可能就会更多
    此外,提取局部特征的ViT加入了Lora微调,如果不微调就可以提前编码,训练速度快很多,但是会掉精度,但是掉的不多: r6 vs. r7,Lora列代表每个分支使用的Lora数量
    在这里插入图片描述

丰富图像caption

这里有两种方案:
(1)常规的方案,就是原图用BLIP2得到caption,但是比较简短,于是让大语言模型扩充一下。
(2)本文的方案:分Region做Caption,然后让大语言模型合并
在这里插入图片描述
如图所示了,Caption分三块:

  1. 总的Caption: 由BLIP2和原数据集标注得到
  2. Region Caption: 目标检测 + Caption
  3. Segmentation Caption: SAM + Caption
    在通过image-text相似度剔除错误的caption后,让GPT4做一个总结,得到丰富的Caption,Caption中的很多句子都可以和原图一一对应

训练

现在有了(1)模型结构(2)图像Detailed Caption,开始训练
训练实际上和其他模型没什么区别,就是用不同数据集、不同任务来训练,比如Caption,VQA, document-related VQA。只是在做Caption相关任务时,加入detailed caption,让模型输出更细节的caption。

  • 30
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
AF(Association Fusion)是一种基于关联的多模态分类方法。多模态分类是指利用多种不同类型的数据(如图像、文本、音频等)进行分类任务。传统的多模态分类方法通常是将不同类型的数据分别提取特征,然后将这些特征进行融合得到最终结果。AF方法则是通过建立数据之间的关联来实现融合。 具体而言,AF方法首先将每个模态的数据进行特征提取,得到对应的特征向量。然后通过计算每个模态之间的相关度来建立模态之间的关联。这个相关度可以通过不同的方法来计算,例如互信息、皮尔逊相关系数等。 接下来,AF方法通过关联度来调整每个模态的权重。具体来说,权重与关联度成正比,关联度越高的模态将获得更大的权重。这样一来,每个模态的重要程度就会根据数据之间的关联度动态调整。 最后,AF方法通过将每个模态的特征与对应的权重进行加权融合,得到最终的特征向量。这个特征向量可以用于进行分类任务。 与传统的融合方法相比,AF方法能够更准确地捕捉到不同模态数据之间的关联信息。这样一来,融合后的特征向量能够更好地反映整个多模态数据的特征,提高分类准确率。 综上所述,AF是一种基于关联的多模态分类融合方法,通过建立数据之间的关联来动态调整每个模态的权重,从而提高多模态分类的准确率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值