u013250861
这个作者很懒,什么都没留下…
展开
-
Qwen 2.5 VL 大模型实现目标检测
遍历指定文件夹中的所有图像,批量执行推理,并保存结果。类ColorPalette:这个类管理颜色,用于给边界框着色。它有一个颜色列表,并且可以扩展更多的颜色名称。get_color方法根据索引返回颜色,用于区分不同对象。类JSONParser:这个静态类处理JSON的解析,可能从模型输出中提取JSON部分。parse_json方法可能用于从文本中提取JSON数据,例如当模型输出包含格式化的JSON时,比如用```json包裹的文本。类BoundingBoxPlotter:这个类负责在图像上绘制边界框。原创 2025-04-30 18:26:41 · 69 阅读 · 0 评论 -
多模态:Phi-3.5-vision-instruct【4.2B参数】【微软】
Phi-3.5-vision-instruct是微软最新发布的 Phi-3.5 系列中的一个AI模型,专注于多模态任务处理,尤其是视觉推理方面的能力。参数的系统,集成了图像编码器、连接器、投影器和Phi-3 Mini语言模型,训练使用了256个NVIDIA A100-80G GPU,训练时间为6天。Phi-3.5-vision在多模态多图像理解(MMMU)中的得分为43.0,相较于之前版本有所提升,显示了其在处理复杂图像理解任务时的增强能力。原创 2025-04-14 00:54:59 · 90 阅读 · 0 评论 -
多模态训练框架
这是一个PyTorch库,用于大规模训练最先进的多模态多任务模型,包括内容理解和生成模型。它包含了模块化和可组合的构建块、预训练权重的常见多模态模型类以及如何将这些构建块与PyTorch生态系统中的组件结合以复制文献中的最先进模型的示例脚本。:这是一个开源框架,用于训练大型多模态模型。:这是一个开源的交互式全模态大型语言模型(MLLM),能够同时处理和分析视频、图像、文本和音频模态,并具有先进的多模态交互体验。它的关键创新是多模态联合训练,允许在广泛的视听和音文数据集上进行训练。原创 2024-12-17 21:12:38 · 119 阅读 · 0 评论 -
LLaVA(一)LLaVA 论文解
argeanguagendisionssistant) 是论文《》提出的端到端训练的多模态模型。作者使用 GPT-4 生成的指令跟随数据微调 LLaVA 可以达到比较惊艳的效果。原创 2024-12-11 19:22:25 · 159 阅读 · 0 评论 -
多模态:BLIP2【①:现成的冻结的预训练图像编码器;②:现成的冻结的大型语言模型;③:需要预训练的QFormer】【Q-Former通过两个预训练任务(表示学习、生成学习)来弥合模态差距】
多模态:BLIP2【①:现成的冻结的预训练图像编码器;②:现成的冻结的大型语言模型;③:需要预训练的QFormer】原创 2024-12-10 11:19:58 · 84 阅读 · 0 评论 -
主流VLM原理深入刨析(CLIP,BLIP,BLIP2,Flamingo,LLaVA,MiniCPT,InstructBLIP,mPLUG-owl)
代表了一系列视觉语言 (VL) 模型,旨在处理交错的视觉数据和文本,生成自由格式的文本作为输出。(2) BLIP-2 引入了一个资源效率更高的框架,包括用于弥补模态差距的轻量级 Q-Former ,实现对冻结 LLMs 的充分利用。利用 LLMs,BLIP-2 可以使用自然语言提示进行零样本图像到文本的生成。(3) LLaVA 率先将 IT 技术应用到 MM 领域。原创 2024-03-11 23:52:39 · 1744 阅读 · 0 评论 -
多模态:图片&文本常见任务【①:图像-文本检索;②:图像描述;③:视觉问答;④:视觉推理;⑤:视觉对话】
三、视觉问答(VQA)四、原创 2024-12-10 10:19:04 · 96 阅读 · 0 评论 -
深入浅出理解ViT(Vision Transformer)模型【预训练好的ViT模型是个有力的特征提取器,我们可以用它输出的特征,去做更多有趣的下游任务】【基于Transformer的Encoder】
ViT 全称VisionTransformer,不同于传统的基于CNN的网络结果,是基于transformer结构的cv网络。总结起来,ViT的训练其实就在做一件事情:把图片打成Patch,送入Transformer Encoder,然后拿对应位置的向量,过一个简单的softmax多分类模型,去预测原始图片中描绘的物体类别即可。你可能会想:“这个分类任务只用一个简单的softmax,真得能分准吗?原创 2024-12-09 16:46:50 · 157 阅读 · 0 评论 -
多模态:BLIP模型【①ViT提取图片特征;②Bert提取文本特征(通过交叉注意力引入图片信息)】【三个训练目标:①ITC图文对比损失;②ITM图文匹配损失;③LM语言模型损失(基于图片)】
最近多模态模型特别火,从头开始学习!在前面写的几篇里面学习了MiniCPM-V、ViT和CLIP之后,今天学习一下BLIP模型,记录学习过程,主要是模型架构、训练方式和相关源代码。欢迎批评指正,一起学习~~原创 2024-12-09 20:33:21 · 114 阅读 · 0 评论 -
【diffusers】(一) diffusers库介绍 & 框架代码解析
说到现在最常用的stable diffusion代码,那肯定莫过于stable-diffusion-webui了,它的快捷安装、可视化界面、extension模块等等功能都拓展了使用人群。虽然在大多数情况下webui都有很好的适用性,但是在某些特殊需求或者应用场景下,我们需要对模型部分结构进行修改(比如把condition模块从文字换成图像,甚至是点云、图表、图结构等数据形式),这时修改模型的同时也需要修改前端可视化代码,时间成本上会较高(主要是我也不会Gradio)。那可不可以在源码上进行修改呢?原创 2024-10-08 20:29:07 · 334 阅读 · 0 评论 -
多模态文档理解:一文读懂mPLUG-DocOwl系列模型
随着人工智能技术的发展,多模态大型语言模型(MLLMs)在视觉-文本理解领域取得了显著进展。mPLUG-DocOwl系列模型作为其中的佼佼者,展示了强大的无OCR文档理解能力。本文将解读mPLUG-DocOwl系列模型的架构、训练策略及其在多页文档理解中的应用。mPLUG-DocOwl系列模型通过统一的指令调优策略、高效的视觉抽象器和低秩适应模块,提升了模型在各种文档理解任务上的性能。原创 2024-10-08 20:28:00 · 433 阅读 · 0 评论 -
Donut:不用OCR中间过程也能理解图片文档
摘要:理解文档图像(例如,发票)是一项核心但具有挑战性的任务,因为它需要如阅读文本和整体理解文档等复杂功能。当前的视觉文档理解(VDU)方法将阅读文本的任务外包给现成的光学字符识别(OCR)引擎,并专注于使用OCR输出进行理解任务。尽管这样的基于OCR的方法已经展示出不错的性能,但他们受到以下几个问题的困扰:1)使用OCR的高计算成本;2)OCR模型对语言或文档类型的不灵活性;3)OCR错误向后续过程传播。原创 2024-05-25 09:52:41 · 414 阅读 · 0 评论 -
计算机视觉笔记 | U-net | 原理详解
U-Net网络实质就是通过编码器提取图像深层语义信息,再通过解码器融合像素语义特征与位置特征,最终实现原图片像素级分类的效果。计算机视觉笔记 | U-net | 原理详解 - 知乎。原创 2024-03-12 22:57:34 · 186 阅读 · 0 评论 -
用大白话盘点AIGC文生图中的常见模型与技术概念
本文主要面向产品经理或其他非技术专业的人员,讲述其模型的基本概念与实现思路。可以作为了解当前生成模型的趋势和概念的工具,或者提供初步扫盲。对于寻求深入技术细节和如何实现的读者来说,还是建议查看相关的研究论文或文章。为了内容更加易懂,本文会牺牲一些技术细节的准确性,个人水平所限,如果有逻辑或技术原理上的错误,欢迎大佬指出(鞠躬)。本文不会出现公式,对理解背景没有要求。如果你看过《三体》,那么恭喜你可以更好的理解高维和低维。原创 2024-03-09 00:37:10 · 320 阅读 · 0 评论 -
从视觉任务(识别/定位/分割/追踪..)出发,调研各种模态提示的视觉大模型CV-VLM综述论文详细阅读:Foundational Models Defining a New Era in Vision
视觉系统可以观察和推理视觉场景的构成性质,是理解我们这个世界的基础。现实世界环境中物体及其位置、模糊性和变化之间的复杂关系可以用人类语言进行更好的描述,而人类语言自然受语法规则以及音频和深度等其他模态的制约。为弥合这些模式之间的差距而学习的模型与大规模的训练数据相结合,有助于在测试时进行上下文推理、概括和提示。这些模型被称为基础模型。这些模型的输出可以通过人类提供的提示进行修改,而无需重新训练,例如,通过。原创 2024-03-09 00:29:46 · 1673 阅读 · 0 评论 -
多模态-2020-VIT:用于大规模图像识别的Transformer(2020)
虽然Transformer架构已经成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构。论文表明,这种对CNN的依赖不是必要的,直接应用于图像块序列的纯Transformer可以很好地执行图像分类任务。原创 2024-03-08 21:47:02 · 308 阅读 · 0 评论 -
图文匹配-2021-ViLT:一种极简多模态学习框架 Baseline【比ViLBERT更早融合】【0标识文本,1标识图片】
ViLT 与以前的 VLP 模型的主要不同之处在于:ViLT 去掉了复杂的处理图像特征的目标检测器,而改为了极简的一层 Linear Embedding,这样的设计极大地减小了模型的整体尺寸和运行时间。正如预期的那样,随着训练步骤的提升,模型下游任务的性能也不断提高。在 ViLT 中,输出是两个图片,一个问题,那么分成 (问题,图片1) 和 (问题,图片2),并把它们分别喂给 ViLT 模型,得到的两个 Pooled Representation,也就是 � 拼接起来,最后输出分类结果。原创 2024-03-08 21:35:39 · 165 阅读 · 0 评论 -
图文匹配-2019:ViLBERT【第一代多模态模型;太重,文本与图片分别Embedding之后开始深度融合】【CLIP类似双塔,二ViLBERT类似单塔将两路Embedding融合】
ViLBERT是用于多模态任务的多任务模型,例如VQA和推荐表达式。ViLBERT是vision and language bert,同时处理图像和文本。处理两种不同的输入类型,也就是多模态学习。图像和文本模型有VideoBERT;VDBERT;VLBERT;ViLBERT;ImageBER;LXMERT;VisualBERT;MBERT;UnicoderVL;UNITER;PixelBERT;它们几乎同时提出,有细微的变化,但是基本思想相同。使用Transformer同时处理图像和文本。原创 2024-03-08 21:15:32 · 318 阅读 · 0 评论 -
多模态大模型技术演进及研究框架
多模态表示包含两个或两个以上事物表现形式模态是事物的一种表现形式,多模态通常包含两个或者两个以上的模态形式,是从多个视角出发对事物进行描述。生活中常见多 模态表示,例如传感器的数据不仅仅包含文字、图像,还可以包括与之匹配的温度、深度信息等。使用多模态数据能够使得事物呈现更加立体、全面,多模态研究成为当前研究重要方面,在情感分析、机器翻译、自然语言处理 和生物医药前沿方向取得重大突破。Transformer颠覆传统模型,但限于单模态领域。原创 2023-03-22 17:38:55 · 3267 阅读 · 0 评论 -
AI-多模态-文本->图像-2022:Midjourney
Midjourney 会发布新的模型版本,以提高效率,相干性和质量。最新的模型是默认模型,但是可以使用–version或-v参数或使用 /settings命令和选择模型版本使用其他模型。不同类型图像的不同模型在不同类型的图像上表现出色。原创 2023-05-02 10:54:52 · 255 阅读 · 0 评论 -
生成式-看图说话/图片问答/以图生文-2022-BLIP1.0:VIT+BERT+GPT【三个任务同时训练,三个Loss】【推理时不同任务加载不同模块】
Filter以ITC和ITM的目标进行微调,以学习文本是否与图像匹配,该Filter去除原始网络文本和合成文本中的噪音文本,如果ITM头预测一个文本与图像不匹配,则该文本被认为是噪音。图像-文本对比损失(Image-Text Contrastive Loss, ITC)激活单模态编码器,目的是通过促进正向的图像-文本对与负向的图像-文本对有相似的表示,来对齐ViT和text Transformer的特征空间。的规模来获得性能上的提高,但研究结果显示,有噪声的网络文本对于视觉语言学习来说只能得到次优的结果。原创 2022-12-12 18:39:44 · 737 阅读 · 0 评论 -
AI-多模态-2022:TCL【triple contrastive learning】【三重对比学习的视觉-语言预训练模型】
CPC。原创 2022-12-12 18:20:18 · 1456 阅读 · 0 评论 -
AI-多模态-2021:ALBEF
大规模的视觉和语言表示学习在许多vision-language任务上取得了很大的进步。现有的方法大多用一个以transformer为基础的多模态编码器来联合建模视觉特征和文本特征。然而,视觉特征和文本特征在语义空间上并不是对齐的,这就导致多模态编码器很难学习图像-文本的交互。本文提出了一种对比损失,能够在图像和文本表示融合之前先将它们对齐。不同于大多现有的方法,ALBEF方法既不需要对图像数据进行标注,也无需高分辨率的图像。为了更好地对噪声数据进行学习,作者还提出了动量蒸馏,能够从动量模型的伪目标中学习。原创 2022-12-12 18:29:17 · 747 阅读 · 0 评论 -
AI-多模态-2021:FILIP【一种基于交互的细粒度图文预训练模型】
FILIP(Fine-grained Interactive Language-Image Pretrain)是一种基于交互的细粒度图文预训练模型,用于解决图文双塔匹配模型中的细粒度匹配问题。本文对该论文进行阅读笔记,。FILIP [1] 提出是为了解决图文匹配中的细粒度匹配问题。我们之前在博文 [2] 中曾经讨论过,在图文双塔匹配中,由于需要对图片塔的向量提前进行刷库,一些长尾的,形态较小的物体可能会在训练过程中被忽略,导致图文匹配的时候缺少对细粒度匹配的能力。原创 2022-12-12 18:35:48 · 1112 阅读 · 0 评论 -
AI-多模态-2021:ALIGN【】
作者发现,在这样的大规模噪声数据集上预训练的视觉和视觉语言表示在广泛的任务上取得了非常强的性能。学习良好的视觉和视觉语言表征对于解决计算机视觉问题(图像检索、图像分类、视频理解)是至关重要的,目前,预训练的特征在许多NLP任务中已经展现了非常大的潜力。但是,Conceptual Captions数据集还进行了大量的数据过滤和后处理工作,为了获取更大规模的数据,作者通过减轻Conceptual Captions工作中的大部分数据清洗工作来减少数据处理的工作量(作者仅根据数据的频率做了非常简单的数据过滤)。原创 2022-12-12 18:46:35 · 1366 阅读 · 0 评论 -
AI-多模态-2021:CLIP模型【OpenAI】【连接语言与视觉】【对比学习】【将图像和文本特征投射到同一维度空间,后续论文都是在这些空间内进行融合创新】
模型需要用到大量的格式化标注数据,这些标注数据获取通常成本高昂。模型在当前数据集的效果比较好,但是可能模型的泛化能力较差,同时迁移到新的训练任务也比较困难。与此同时,互联网上面已经存在了大量的图像文本对(在网页中,开发者一般都会为图片添加一段文字备注),实际上这些素材可以作为已经标注好的数据集,利用这些数据集进行训练,既能解决获取标注数据成本高昂的问题,同时也因为互联网上的数据量比较大和数据本身差异较大,更容易让我们获得泛化能力较强的模型。原创 2022-12-01 17:52:04 · 1218 阅读 · 0 评论 -
AI-多模态-文本->图像-2021:Stable Diffusion【开源】【目前开源模型中最强】【并不直接恢复图像,图像的像素太多,空间太大,直接恢复难度太大】【VAE、ResNet、UNet】
最近大火的Stable Diffusion也开源了(20220823);我也本地化测试了一下效果确实比Dall-E mini强太多了,对于我们这些玩不上Dall-E2的这个简直就是就是捡钱的感觉,当然后期跑起来,稍微不注意显存就炸了。这里我写一下安装过程,具体分为两个安装流程;原创 2022-12-22 16:18:06 · 2230 阅读 · 0 评论 -
AI-多模态-文本->图像-2021:DALL-E模型【OpenAI】
通过将对自然语言的理解与生成相应视觉表现的能力结合起来——换句话说,通过“读”和“看”的能力——DALL-E有力地展示了多模态AI的潜力。DALL-E生成的图像未曾存在于世界上或任何人的想象中。再看室内设计,一个带有拱门和意大利元素且带壁炉的客厅,这样的要求描述不仅符合甲方的思路,而且在满足要求前提下,给出了非常多的合理布局设计。不同于GAN(生成式对抗网络)的一点是,虽然GAN能够替换视频里的人脸,但其仅仅限制于人脸的范畴,而Dalle是将概念和概念之间做了关联,这在以往也是从未被实现过的。原创 2022-12-01 17:56:18 · 2233 阅读 · 0 评论 -
AI-多模态-2020:LIT【语言可解释性工具 (Language Interpretability Tool, LIT)】
从业者必须经常测试大量技术,研究局部解释,汇总指标和输入的反事实 (Counterfactual) 变化,才能更好地理解模型行为。它实现了分类和回归模型的黑盒探查,使研究人员可以更轻松地调试性能并通过互动和可视化来分析机器学习模型的公平性。随着自然语言处理 (NLP) 模型的越发强大,并被部署于越来越多的真实世界环境,对其行为的理解也变得更加重要。这些问题不仅涉及模型在领域转移和对抗环境下的行为,还涉及其在社会偏见或浅层启发法影响下的行为倾向。任何新模型都可能引起这样的疑问:模型在哪些情况下表现不佳?原创 2022-12-12 18:06:45 · 430 阅读 · 0 评论 -
多模态预训练模型选用指南(Vision-Language Pre-traning)
2)模型架构:从两个不同的角度,一是从多模态融合的角度分为单流与双流,二是从整体架构设计的角度分为 Encoder-only 与 Encoder-decoder。随机初始化的参数和使用预训练初始化的参数要使用不同的学习率,前者的学习率设置的大一些更好。一共包括以下方面的话题,特征提取、模型架构、预训练目标、预训练数据集和下游任务。本篇整理一下最近几篇关于Vision-Language Pre-traning(VLP)的综述文章,以及一篇很不错的,关于各个组件的选用指南文章。原创 2022-12-12 18:12:04 · 805 阅读 · 0 评论 -
VLP:《视觉-语言预训练》综述
我们从特征提取、模型架构、预训练目标、预训练数据集和下游任务五个方面回顾了它的最新进展,并详细总结了具体的 SOTA VLP 模型。然而,之前的一些工作,例如 VideoBERT、ImageBERT、ALIGN和 CLIP,处理从互联网收集的大量数据并使用他们自己构建的数据集进行训练。最后,我们讨论了 VLP 的新领域。在本节中,我们从两个不同的角度介绍 VLP 模型的架构:(1)从多模态融合的角度分为单流与双流,以及(2)从整体架构设计来看分为only-encoder与encoder-decoder。原创 2022-12-12 18:16:54 · 1079 阅读 · 0 评论 -
多模态模型:概述
多模态模型是一种机器学习模型,它可以同时处理多种不同类型的数据,例如文本、图像、声音或者视频。这种模型能够更好地捕捉多种数据之间的关系,并且有助于提高模型的准确性和效率。例如,可以使用多模态模型来建立一个情感分析系统,该系统可以同时处理文本和语音数据,从而更准确地识别用户的情绪。此外,也可以这么理解:模态是指不同的数据表示方式或不同的输入/输出模式。例如,文本、语音和图像都是不同的模态。一个多模态模型可以在不同的模态之间转换,从而能够从多种输入模式中学习信息,并在多种输出模式中输出信息。原创 2023-03-22 14:47:56 · 4239 阅读 · 0 评论 -
数据集-(图像-文本):LAION【史上最大规模多模态图文数据集,包含58.5亿个图像-文本对】
之前的研究中,为了限制生成模型不生成种族主义图片,尝试在训练集中删除了与暴力相关的物体、人和面部的图像,然而,这显然限制了模型的通用能力—比如人脸生成。紧接着发布的ALIGN[3]、GLIDE[12]等证实了这一点,但是这些大型数据集都没有开源,因此这一领域的研究,只集中在少数几个机构中,2021年公布的LAION-400M[1]是当时最大的公开图文数据集,本次发布的LAION-5B[2]是LAION-400M的14倍,足够规模的公开数据使得该领域的研究更多元化,能够让更多的研究者参与到这一领域的研究中。原创 2023-05-02 11:47:35 · 4846 阅读 · 1 评论 -
AI-多模态-2021:SLIP【对CLIP的改进】
近日,为了探究对图像进行自监督学习的势头是否会进入语言监督领域,来自加州大学伯克利分校和 Facebook AI 研究院的研究者调查了 CLIP 形式的语言监督是否也受益于图像自监督。为了探究 CV 领域的自监督学习是否会影响 NLP 领域,来自加州大学伯克利分校和 Facebook AI 研究院的研究者提出了一种结合语言监督和图像自监督的新框架 SLIP。项目地址:https://github.com/facebookresearch/SLIP。原创 2022-12-12 18:01:26 · 677 阅读 · 0 评论 -
【论文简介】Stable Diffusion的基础论文:2112.High-Resolution Image Synthesis with Latent Diffusion Models
diffusion 与 latent diffusion的区别,可以理解为 diffusion直接在原图进行图片的去噪处理,而是图像经过VAE编码器压缩的图像,进行diffusion处理,然后再通过解码器,对压缩后的latent 编码还原为图像。通过连接和更一般的交叉注意力机制,来调节条件 LDMs基于latent的扩散模型的优势在于计算效率更高效,因为图像的latent空间要比图像pixel空间要小,这也是SD的核心优势。原创 2023-10-25 00:17:42 · 366 阅读 · 0 评论 -
一文读懂Stable Diffusion 论文原理+代码超详细解读
这里引入一个新的encoder �� (这个是用于条件编码的encoder,和上面提到的用于降维的是不同的)来将条件 � 映射到 ��(�)∈��×�� ,然后 ��(�)∈��×�� 通过cross-attention layer 映射到UNet 的中间层。这里, ��(��) 是UNet �� 的中间层表示, ��(�)∈��×��� , ��(�)∈��×��&��(�)∈��×��。LDM公式中 �� 是从encoder � 获取到的 �� 的低维表达,LDM的UNet只需要预测低维空间噪声。原创 2023-10-25 02:15:07 · 3326 阅读 · 0 评论 -
图文多模态预训练任务整理
在此之后,对比学习的思想逐渐流行,也应用在了多模态预训练任务中,并起到了很好的效果。而在最近的研究中,较为传统的任务已经无法满足多模态性能提升的要求,研究者们主要有两方面的尝试:1)将各种任务统一化,以适应不同模态的输入以及大一统的趋势;其中,除了具体网络结构,预训练任务也对预训练的效果起到了至关重要的作用,下面我就介绍几个常见的多模态预训练任务,以及它们在各种模型上的应用。需要注意的是,虽然MLM和MVM是针对单模态的任务,但由于模型内部会有多模态的交互,因此用到的信息往往已经不是单模态的了。原创 2023-10-25 23:15:55 · 479 阅读 · 0 评论 -
多模态-图文生成-数据集:COCO、LAION
多模态-图文生成-数据集:COCO、LAION。原创 2023-10-26 00:26:04 · 839 阅读 · 0 评论 -
用于视觉任务的VLM技术简介
对比式目标函数的目的是希望在特征空间使得正样本对之间的距离尽可能接近,而正负样本对之间的距离尽可能远。通常用InfoNCE及其变体作为图像对比学习的目标函数通常由两部分构成,一部分为图像特征到文本特征的InfoNCE,一部分为文本特征与其对应的图像的特征的InfoNCE,将这两者结合作为最终的损失函数。在Image-Text Contrastive的基础上还需要加上label的信息,这里未完待续。。原创 2023-10-27 13:12:33 · 555 阅读 · 0 评论