20240708 多模态大模型

AI-lala

已于 2024-07-31 14:36:31 修改

阅读量821

点赞数 21

文章标签：人工智能

于 2024-07-08 16:23:55 首次发布

本文链接：https://blog.csdn.net/GAOSHIQI5322688/article/details/140271477

版权

参考网站：

自监督学习修炼之MoCov1与MoCov2 - 知乎

论文分享23年和24年 B站

CVPR2024 Tutorial: Recent Advanced in Vision Foundation Models

【valse 2024】会议内容汇总（持续更新）_valse ppt-CSDN博客

一.CLIP图像编码resnet50和transformer区别

CLIP (Contrastive Language-Image Pre-training) 是一个结合了图像和文本的跨模态预训练模型，它通过对比学习的方式使模型学会将图像与相关的描述性文本对齐。在 CLIP 中，图像编码器可以采用不同的架构，包括基于ResNet50或Transformer的设计。

ResNet50作为图像编码器：

ResNet50是深度残差网络的一种变体，包含50层，其核心特点是使用残差块来解决深层神经网络中的梯度消失和爆炸问题。
在CLIP中，ResNet50通常被用来提取图像特征。它是一个卷积神经网络（CNN），擅长捕捉局部特征并进行层次化的抽象表示，尤其适合于图像识别和分类任务。

Transformer作为图像编码器（ViT, Vision Transformer）：

ViT是一种将Transformer应用于图像领域的结构，它首先将图像分割成一系列固定大小的 patches，然后将这些patches线性投影为向量序列，并加上位置编码，以便模型理解patch之间的相对或绝对位置关系。
在CLIP中，如果使用Transformer作为图像编码器，它可以提供全局注意力机制，即每个patch都能够与图像中其他所有patch相互作用，这样模型可以从全局视角捕获上下文信息，而不仅仅是局部特征。
与ResNet相比，Transformer在处理长距离依赖时具有优势，但可能需要更多的计算资源和更大的数据集来训练以达到最佳性能。

总结来说，在CLIP中，ResNet50图像编码器更侧重于局部特征表达，适合于计算机视觉传统任务；而Transformer（如ViT）图像编码器则能够从全局视角捕捉图像特征，这在处理需要理解和推理全局语境的任务时可能更为有效。

二.GLIP:

在计算机视觉和自然语言处理领域，"grounding"（接地）这个概念最早源于认知科学，它是指符号或词语与现实世界实体或概念之间的对应关系，即词汇或表述与它们所指代的对象或事件建立起联系的过程。在人工智能中，grounding意味着模型需要理解文本中的描述并将其准确地映射到视觉场景中的相应元素上。

在GLIP（Grounded Language-Image Pre-training）模型中，"grounding"这一名词的引用更加直接，它特指模型能够将文本指令或问题与图像中的特定区域（即像素级）相关联的能力。GLIP通过预训练来学习语言和图像之间的这种精准对应关系，使得模型在面对下游任务如图像标注、视觉问答等时，能够有效地将文本信息与图像中的对象、动作或场景属性精确匹配，也就是所谓的“视觉-语言对齐”（Visual-Linguistic Alignment）或“定位语义”（Phrase Grounding）。

十分钟解读GLIP：Grounded Language-Image Pre-training - 知乎

多模态问答模型论文大全：

GitHub - BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Papers and Datasets on Multimodal Large Language Models, and Their Evaluation.

三. SAM

SAM模型详解 - 知乎

Segment Anything | Meta AI

GitHub - IDEA-Research/Grounded-Segment-Anything: Marrying Grounding DINO with Segment Anything & Stable Diffusion & BLIP - Automatically Detect , Segment and Generate Anything with Image and Text Inputs

自动标注

使用Segment Anything(SAM)模型进行自动标注_咚咚锵咚咚锵的博客-CSDN博客

GitHub - IDEA-Research/Grounded-Segment-Anything: Grounded SAM: Marrying Grounding DINO with Segment Anything & Stable Diffusion & Recognize Anything - Automatically Detect , Segment and Generate Anything

SAM小模型

GitHub - ChaoningZhang/MobileSAM: This is the official code for MobileSAM project that makes SAM lightweight for mobile applications and beyond!

四.TAM

五.florence2

微软Florence-2官宣开源，一统视觉基础模型！华人团队联手打造

微调 Florence-2 - 微软的尖端视觉语言模型

AI-lala

关注

21
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
20240708 多模态大模型

GLIP通过预训练来学习语言和图像之间的这种精准对应关系，使得模型在面对下游任务如图像标注、视觉问答等时，能够有效地将文本信息与图像中的对象、动作或场景属性精确匹配，也就是所谓的“视觉-语言对齐”（Visual-Linguistic Alignment）或“定位语义”（Phrase Grounding）。在计算机视觉和自然语言处理领域，"grounding"（接地）这个概念最早源于认知科学，它是指符号或词语与现实世界实体或概念之间的对应关系，即词汇或表述与它们所指代的对象或事件建立起联系的过程。
复制链接

扫一扫