![](https://img-blog.csdnimg.cn/direct/4af2bb5a1df24f2e9681769a0e05024d.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
多模态大模型
文章平均质量分 90
多模态大模型
山顶夕景
实践出真知
展开
-
【LLM多模态】CogVLM图生文模型架构和训练流程
Cogvlm模型共包含四个基本组件:ViT 编码器,MLP 适配器,预训练大语言模型(GPT-style)和视觉专家模块。- ViT编码器:在 CogVLM-17B 中,采用预训练的 EVA2-CLIP-E。也就是上图将图片进入vit encoder编码。在CogVLM-17B中,移除了ViT编码器的最后一层,因为该层专注于整合[CLS]特征以用于对比学习。- MLP 适配器:MLP 适配器是一个两层的 MLP(SwiGLU),用于将 ViT 的输出映射到与词嵌入的文本特征相同的空间。注:所有的图像特原创 2024-03-24 16:29:49 · 3437 阅读 · 2 评论 -
【多模态LLM】以ViT进行视觉表征的多模态模型1(BLIP-2、InstructBLIP)
- CLIP和BLIP的区别: - CLIP:通过对比学习联合训练,预测图像和文本之间的匹配关系。即使用双塔结构,分别对图像和文本编码,然后通过计算cos进行图文匹配。 - BLIP:包括两个单模态编码器(图像编码器和文本编码器)、一个图像基础的文本编码器和一个图像基础的文本解码器。BLIP通过联合训练三个损失函数:图像-文本对比损失(ITC)、图像-文本匹配损失(ITM)和语言建模损失(LM),以实现多任务学习和迁移学习。 - 训练方式的区别:除了对比学习,BLIP还采用了一种高效率利用噪声网络数据原创 2024-07-01 21:53:49 · 990 阅读 · 1 评论 -
【多模态/CV】图像数据增强数据分析和处理
多模态大模型训练前,图片处理的常见操作:分辨率调整、网格畸变、水平翻转、分辨率调整、随机crop、换颜色、多张图片拼接等。ORB(Oriented FAST and Rotated BRIEF) 是一种计算机视觉中常用的特征检测算法,它将 FAST 关键点检测和 BRIEF 描述符生成结合起来,同时引入了方向性和尺度不变性。使用 ORB 进行特征检测可以有以下几个应用:- 目标识别:在多幅图像中检测相同的ORB 特征点,并通过这些点的匹配确定目标物体的位置和方向- 图像匹配:在两幅图像中检测 ORB 特原创 2024-06-08 11:41:19 · 1076 阅读 · 7 评论 -
【LLM】两篇多模态LLM综述MultiModal Large Language Models
note(一)现有的 MM-LLM 的趋势:(1)从专门强调 MM 理解对特定模态的生成的进展,并进一步演变为任何到任何模态的转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);(2) 从 MM PT 提升到 SFT,然后到 RLHF,训练管道进行连续细化,努力更好地与人类意图对齐并提高模型的会话交互能力(例如,BLIP-2 → InstructBLIP →DRESS);(3) 实施多样化模态扩展(例如,BLIP-2 → X-LLM 和 InstructBLIP→X-In原创 2024-06-02 13:05:46 · 1466 阅读 · 8 评论 -
【LLM多模态】多模态LLM在图表处理的应用
在真实场景下,我们进行测试,多模态大模型在处理显著文本时表现尚可,但在处理细粒度文本时往往效果并不太好,why?具体原因如下:首先,视觉编码器的分辨率对于多模态大模型的性能影响较大,由于视觉信息往往包含大量的细节和复杂性,因此需要高分辨率的编码器来捕捉这些细节。但是,高分辨率编码器的计算成本也相应较高,这会限制模型的训练速度和效率。其次,现有的模型主要依赖于大规模的预训练数据集进行训练,而这些数据集往往只包含一些大规模常规或者合成的图像和文本,比如论文arxiv。因此,这些模型可能无法很好地处原创 2024-05-26 17:32:24 · 571 阅读 · 0 评论 -
【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model
新加坡-南洋理工大学发的paper,2023年12月我们还是从十大问题分析这篇论文,但由于是综述,可能没有实验环节详细的部分。# 1. 论文试图解决什么问题- 一篇关于Visual Instruction Tuning 视觉指令微调任务的综述,Visual Instruction Tuning是为了让多模态LLM拥有指令遵循能力- 文章介绍传统CV局限性(需要针对不同任务训练不同模型,缺乏交互能力),如下图左侧。- 文章从三方面介绍Visual Instruction Tuning的发展过程:单语言原创 2024-05-26 14:36:31 · 811 阅读 · 0 评论 -
【LLM多模态】LLava模型架构和训练过程 | CLIP模型
CLIP使用了对比学习的方法,即通过正样本(匹配的图像-文本对)和负样本(不匹配的图像-文本对)来训练模型。在训练过程中,模型会尝试最大化正样本对的相似度(比如通过计算余弦相似度),同时最小化负样本对的相似度。CLIP模型在zero-shot学习中表现强大,可以直接用于zero-shot推理,比如将猫的图片emb后,将猪狗猫等类的文本描述也分别emb,计算图片和类别emb之间的相似度,从而进行分类。CLIP-ViT-L/14模型的14表示每个patch的分辨率为14X14,比如在224x224像素的图像原创 2024-05-23 23:17:11 · 4377 阅读 · 4 评论 -
【LLM多模态】多模态LLM的EMT灾难性遗忘评估框架
# note- 当前很多MLLM多模态大模型,用于视觉问答-聊天机器人,很少评估图片分类能力。在领域SFT数据微调后,EMT框架是评估微调后模型在几个分类数据集上效果,来评估是否出现灾难性遗忘- 实验现象:多数微调后模型的效果,比基础视觉编码器CLIP分数更低。评估的模型:用EMT来评估四个模型:LLaVA、Otter、LENS和InstructBLIP。- 微调实验结论:Lora微调比线性微调(微调线性适配器adapter)导致更多遗忘原创 2024-05-20 22:45:51 · 610 阅读 · 0 评论 -
处理DecompressionBombWarning: Image size (101896752 pixels) exceeds limit of 89478485 pixels
# 一、问题描述有如下的警告。这是因为Pillow默认设置了一个最大图像处理像素限制,目的是防止巨大图像的处理消耗过多的内存,可能导致拒绝服务攻击(DOS)。```python# warning如下:DecompressionBombWarning: Image size (101896752 pixels) exceeds limit of 89478485 pixels, could be decompression bomb DOS attack.```# 二、解决方案方法一:增加像原创 2024-05-09 00:15:18 · 363 阅读 · 1 评论 -
【LLM多模态】MiniGPT4模型架构和训练流程
- 图生文应用场景:比如电商领域根据产品图像生成产品描述、娱乐领域中根据电影海报生成电影介绍等- MiniGPT-4将预训练的大语言模型和视觉编码器参数同时冻结,只需要单独训练线性投影层,使视觉特征和语言模型对齐。- MiniGPT4的视觉编码器:使用了与BLIP-2相同的预训练视觉语言模型,该模型由2个部分组成: - 视觉编码器ViT(vision transformer):提取图像中的基本视觉特征。miniGPT-4使用了EVA-CLIP中的ViT-G/14进行实现(初始化该模块的代码如下) -原创 2024-05-02 09:14:45 · 1233 阅读 · 0 评论 -
【LLM多模态】Qwen-VL模型架构和训练流程
Qwen-VL模型的整体网络架构包括以下三个组件:大型语言模型(Large Language Model):- 作用:作为Qwen-VL模型的基础组件,这个部分采用了一个大型语言模型,其初始权重来自于预训练的Qwen-7B模型。- 来源:Qwen-VL的大型语言模型使用了来自Qwen-7B模型的预训练权重。视觉编码器(Visual Encoder):- 作用:视觉编码器采用了Vision Transformer(ViT)架构,用于处理输入图像并生成一组图像特征。在训练和推理过程中,将输入图像调原创 2024-04-25 22:39:54 · 3090 阅读 · 2 评论 -
解决报错OSError: cannot write mode RGBA as JPEG
# 一、问题描述如题:解决报错OSError: cannot write mode RGBA as JPEG,这个错误是在下面代码中出现的:```pythonfrom PIL import Image# 打开图片root_path = "xx"this_image_path = root_path + "example3/4.png"img = Image.open(this_image_path) # .convert('RGB')this_save_path = root_path +原创 2024-04-08 21:13:28 · 753 阅读 · 0 评论 -
【多模态LLM】(task1)Sora相关技术路径
一、Sora是什么?Sora是text-to-video模型 (可能是世界模型),OpenAl的研究人员选择这个名字,因为它“唤起了无限创造力潜能”,特点是: 创建最多60秒的视频,高度详细的场景,复杂的多相机视角以及富有情感的多角色。Sora官网链接:https://openai.com/sora优点:连续多帧的视频。视频融合。同一场景的多角度/多镜头的生成能力。人和其他场景元素在三维空间中一致移动。支持任意分辨率,宽高比的视频输出。缺点:对物理规律的理解仍然有限。Sora能力总原创 2024-02-29 00:32:42 · 881 阅读 · 0 评论 -
【LLM多模态】Cogview3、DALL-E3、CogVLM、LLava模型
丹青模型基于原生中文语料数据及网易自有高质量图片数据训练,与其他文生图模型相比,丹青模型的差异化优势在于对中文的理解能力更强,对中华传统美食、成语、俗语、诗句的理解和生成更为准确。VisualGLM 是一个依赖于具体语言模型的多模态模型,而CogVLM则是一个更广阔的系列,不仅有基于GLM的双语模型,也有基于Llama2系列的英文模型。之前的多模态模型:通常都是将图像特征直接对齐到文本特征的输入空间去,并且图像特征的编码器通常规模较小,这种情况下图像可以看成是文本的“附庸”,效果自然有限。原创 2024-01-30 22:57:32 · 2269 阅读 · 2 评论