VLM学习笔记

AI算法网奇

已于 2024-06-05 17:45:15 修改

阅读量646

点赞数 18

分类专栏：深度学习基础文章标签：深度学习

于 2024-06-03 12:48:36 首次发布

本文链接：https://blog.csdn.net/jacke121/article/details/139411640

版权

深度学习基础专栏收录该内容

166 篇文章 17 订阅

订阅专栏

基础VLM模型CLIP

CLIP (Contrastive Language-Image Pre-training)

clip的再训练

CLIP-Chinese

轻量化VLM探索：MobileVLM V2

怎么预训练VLMs？

X-VLM

TurboMind LLM推理引擎

基础VLM模型CLIP

CLIP (Contrastive Language-Image Pre-training)

基本思想：CLIP的基本算法原理是文本和图像在特征域进行对齐。

主流VLM原理深入刨析（CLIP，BLIP，BLIP2，Flamingo，LLaVA，MiniCPT，InstructBLIP，mPLUG-owl）-CSDN博客

模型结构：为了对image和text建立联系，首先分别对image和text进行特征提取，image特征提取的backbone可以是resnet系列模型也可以是VIT系列模型；text特征提取目前一般采用bert模型。特征提取之后，由于做了normalize，直接相乘来计算余弦距离，同一pair对的结果趋近于1，不同pair对的结果趋近于0，因为就可以采用对比损失loss（info-nce-loss）【这里要比较大的batch size才能有效果，类似于维护一个大的特征相似度矩阵】

原文链接：https://blog.csdn.net/weixin_54338498/article/details/135258723

部署参数：

'default"={Conversation

"llama 2'={Conversation

'plain'= {Conversation}

'llava_llama_2'

'v1'=

怎么预训练VLMs？

目前主流的以CLIP为典型代表的Vision-Language Model(VLM)预训练方法可以大致分为3个关键模块：

文本特征提取模块，通常采用Transformer结构及其一系列变体作为基础结构。
图像特征提取模块，通常采用CNN（以ResNet结构为典型代表）或者Transformer（如ViT、MAE等结构）来提取图像特征。
特征融合模块

https://zhuanlan.zhihu.com/p/623877502

X-VLM

X-VLM多模态模型解读_xvlm-CSDN博客

TurboMind LLM推理引擎

参考博文：

学习笔记 | LMDeploy 量化部署 LLM-VLM 实践_vlm 大模型封装-CSDN博客

TurboMind是LMDeploy团队开发的一款关于LLM推理的高效推理引擎，它的主要功能包括：LLaMa 结构模型的支持，continuous batch 推理模式和可扩展的 KV 缓存管理器。

TurboMind推理引擎仅支持推理TurboMind格式的模型。因此，TurboMind在推理HF格式的模型时，会首先自动将HF格式模型转换为TurboMind格式的模型。该过程在新版本的LMDeploy中是自动进行的，无需用户操作。

几个容易迷惑的点：

TurboMind与LMDeploy的关系：LMDeploy是涵盖了LLM 任务全套轻量化、部署和服务解决方案的集成功能包，TurboMind是LMDeploy的一个推理引擎，是一个子模块。LMDeploy也可以使用PyTorch作为推理引擎。
TurboMind与TurboMind模型的关系：TurboMind是推理引擎的名字，TurboMind模型是一种模型存储格式，TurboMind引擎只能推理TurboMind格式的模型。