
VLM/图➜文
文章平均质量分 95
以图生文、看图说话、图片问答
u013250861
这个作者很懒,什么都没留下…
展开
-
主流VLM原理深入刨析(CLIP,BLIP,BLIP2,Flamingo,LLaVA,MiniCPT,InstructBLIP,mPLUG-owl)
代表了一系列视觉语言 (VL) 模型,旨在处理交错的视觉数据和文本,生成自由格式的文本作为输出。(2) BLIP-2 引入了一个资源效率更高的框架,包括用于弥补模态差距的轻量级 Q-Former ,实现对冻结 LLMs 的充分利用。利用 LLMs,BLIP-2 可以使用自然语言提示进行零样本图像到文本的生成。(3) LLaVA 率先将 IT 技术应用到 MM 领域。原创 2024-03-11 23:52:39 · 1744 阅读 · 0 评论 -
生成式-看图说话/图片问答/以图生文-202311-CogVLM:深度融合引领视觉语言模型革新,多领域性能创新高
视觉专家模块是CogVLM模型中的一个关键组件,它的作用是实现深度的视觉语言特征融合。在每一层中,视觉专家模块由两部分组成:一个QKV矩阵和一个MLP。这里的QKV代表“查询-键-数值”,是用于注意力计算的重要矩阵。首先,输入的隐藏状态被分成图像隐藏状态(XI)和文本隐藏状态(XT)。接着,利用QKV矩阵,对图像和文本的隐藏状态进行相应的注意力计算。这一步可以理解为模型决定在处理时应该关注图像和文本中的哪些部分。原创 2024-03-08 23:24:51 · 430 阅读 · 0 评论 -
生成式-看图说话/图片问答/以图生文-2023-BLIP2.0:零样本“图生文”【利用已有的ViT & LLM(均冻结)+ 轻量Q-Former模块做模态融合】
但是,需要确保的是,上下文不能超过 512 个标记,因为这是 BLIP-2 使用的语言模型 (OPT 和 T5) 的上下文长度。这些查询还可以通过相同的自注意力层与文本进行交互 (译者注: 这里的相同是指图像 transformer 和文本 transformer 对应的自注意力层是共享的)。通过引入一种新的视觉语言预训练范式来应对这一挑战,该范式可以任意组合并充分利用两个预训练好的视觉编码器和 LLM,而无须端到端地预训练整个架构。这一新的预训练范式使它能够充分享受两种模态的各自的进展的红利。原创 2024-03-08 22:52:43 · 557 阅读 · 0 评论 -
生成式-看图说话/图片问答/以图生文-2022-BLIP1.0:VIT+BERT+GPT【三个任务同时训练,三个Loss】【推理时不同任务加载不同模块】
Filter以ITC和ITM的目标进行微调,以学习文本是否与图像匹配,该Filter去除原始网络文本和合成文本中的噪音文本,如果ITM头预测一个文本与图像不匹配,则该文本被认为是噪音。图像-文本对比损失(Image-Text Contrastive Loss, ITC)激活单模态编码器,目的是通过促进正向的图像-文本对与负向的图像-文本对有相似的表示,来对齐ViT和text Transformer的特征空间。的规模来获得性能上的提高,但研究结果显示,有噪声的网络文本对于视觉语言学习来说只能得到次优的结果。原创 2022-12-12 18:39:44 · 737 阅读 · 0 评论 -
深入浅出完整解析ControlNet核心基础知识
2022年注定伟大,AI行业从传统深度学习时代迈向了AIGC时代,在以Stable Diffusion,Midjourney,ChatGPT为首的大模型爆发式的发展和推动下,AIGC的持续发展浪潮进入了不可逆转的时刻。原创 2023-10-29 23:47:28 · 1419 阅读 · 0 评论