
LLM-VLM
文章平均质量分 92
LLM-VLM
nopSled
一周一更
展开
-
ParGo: Bridging Vision-Language with Partial and Global Views翻译
最近的多模态大语言模型 (MLLM) 在各种任务(例如,视觉问答)中取得了显著进展。视觉语言投影层是 MLLM 中广泛使用的组件,旨在为 LLM 提供适当的视觉特征。由于其在桥接模态方面发挥的关键作用,它在最近的研究中引起了广泛关注。先驱工作直接使用线性或多层感知器层 (MLP) 来投影视觉特征。然而,这种基于线性的投影仪很难控制提供给 LLM 视觉 token 的数量(例如,处理细粒度特征),从而导致计算成本高昂。翻译 2025-03-06 04:38:21 · 71 阅读 · 0 评论 -
DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models翻译
多模态大型语言模型(MLLM)赋予了大型语言模型(LLM)视觉感知能力,这些模型已在各种视觉语言任务中展现出多功能性和专业性。对于MLLM来说,学习良好的视觉语言对齐是其智能的核心。为了实现跨模态对齐,最近的研究利用中间模块,即投影层,将图像块的表示映射到LLM嵌入空间作为视觉token。广泛使用的投影层可以粗略地归纳为两个分支:非压缩投影和压缩投影。非压缩投影直接使用线性层将视觉token维度转换为LLM维度,同时保持视觉token数量不变。翻译 2025-01-20 04:41:09 · 86 阅读 · 0 评论 -
What matters when building vision-language models?翻译
我们确定了各种工作采用不同设计选择的两个领域:(a)翻译 2024-06-16 14:31:59 · 328 阅读 · 0 评论 -
Chameleon: Mixed-Modal Early-Fusion Foundation Models翻译
最近的多模态基础模型被广泛采用,但仍然单独对不同模态进行建模,通常使用特定模态的编码器或解码器。这可能会限制他们跨模态集成信息并生成可包含任意图像和文本序列的多模态文档的能力。在本文中,我们提出了 Chameleon,这是一系列混合模态基础模型,能够生成任意交替的文本和图像内容的混合序列并进行推理(图 2-4)。这允许完整的多模态文档建模,这是标准多模态任务的直接概括,例如图像生成、图像理解和推理以及纯文本LLM。翻译 2024-05-30 03:43:44 · 913 阅读 · 0 评论 -
WORLD MODEL ON MILLION-LENGTH VIDEO AND LANGUAGE WITH BLOCKWISE RINGATTENTION翻译
当前的世界建模方法大多局限于短的语言序列或短的图像和短片序列。导致模型缺乏对世界上难以用文本或短片表示的部分的理解,并且无法处理复杂的长篇语言和视觉任务。视频序列中的时间结构提供了语言中缺失的有用信息,或者在静态图像和短片中不太明显的信息。长语言序列能编码短序列无法编码的信息,这对于长文档检索或编码等各种应用至关重要。长视频提供了短视频无法掌握的丰富背景,展示了视频时间维度内的场景如何联系、事件的发展以及动作的因果关系。翻译 2024-05-18 19:52:48 · 177 阅读 · 0 评论 -
InternLM-XComposer2翻译
近年来,大型语言模型 (LLM) 领域取得了显著进展。其中,ChatGPT 等模型彻底改变了人类与技术的互动。与此同时,各种开源 LLM(如 Llama、Mistra、InternLM、QWen、GLM 和 Baichuan)也为 LLM 的定制化提供了可能。在这些开源基础上,社区在多模态大型语言模型 (MLLM) 方面取得了长足进步。这些 MLLM 擅长解释图像并参与文本图像对话,展现出令人印象深刻的多模态理解能力。翻译 2024-05-05 19:52:48 · 239 阅读 · 0 评论 -
InternLM-XComposer翻译
在过去的一年中,大型语言模型 (LLM) 的开发取得了令人瞩目的进展。这些最先进的模型,包括 ChatGPT、GPT4 和 PaLM 2,已经展现出前所未有的遵循人类指令和解决开放式任务的能力。受到 PaLM-E 和 BLIP2 成功的启发,有一种很有前途的方法可以通过利用视觉特征作为 LLM 的额外输入来扩展用于视觉语言任务的语言模型。翻译 2024-05-01 04:41:01 · 207 阅读 · 0 评论 -
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models翻译
随着大型语言模型 (LLM) 的快速发展,为多模态输入提供令人印象深刻的功能正在成为当前视觉语言模型 (VLM) 的重要组成部分。为了弥合模态之间的差距,开展了几项研究,将视觉与从图像到视频的LLM结合起来。尽管取得了这些进步,学术研究与 GPT-4 和 Gemini 等经过大量数据和资源训练的成熟模型的实力之间仍然存在巨大差距。对于视觉本身来说,图像分辨率是明确的核心部分,尽管周围环境具有最小的视幻觉。为此,人们进行了更多的尝试来进一步提高当前 VLM 的视觉理解。翻译 2024-04-27 04:44:57 · 274 阅读 · 0 评论 -
MINIGPT-5: INTERLEAVED VISION-AND-LANGUAGE GENERATION VIA GENERATIVE VOKENS翻译
在最近大规模视觉和语言模型的发展中,多模态特征集成不仅是一种不断发展的趋势,而且是塑造从多模态对话agent到前沿内容创建工具等广泛应用的关键进步。随着研究和开发的激增,诸如此类的视觉和语言模型正处于一个时代的边缘,人们期望它们能够无缝地理解和生成文本和图像内容。这种多方面的能力至关重要,因为它可以促进虚拟现实、媒体和电子商务等各个领域之间的增强互动。本质上,任务是使模型能够使用视觉和文本模态连贯地合成、识别和响应,协调信息流并创建紧密的叙述。翻译 2023-11-13 04:31:26 · 235 阅读 · 0 评论 -
Improved Baselines with Visual Instruction Tuning翻译
大型多模态模型 (LMM) 在研究界越来越受欢迎,因为它们是通用助手的关键构建模块。最近对 LMM 的研究正在集中在一个称为视觉指令微调的核心概念上。结果是有希望的,例如 LLaVA 和 MiniGPT-4 在自然语言指令遵循和视觉推理能力方面展示了令人印象深刻的结果。为了更好地了解 LMM 的功能,人们提出了多个基准测试。最近的工作进一步证明了通过分别扩展预训练数据、指令遵循数据、视觉编码器或语言模型来提高性能。翻译 2023-11-05 05:05:34 · 497 阅读 · 0 评论 -
InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4翻译
GPT-4 展示了其在生成高度详细和精确的图像描述方面的强大能力,这标志着语言和视觉处理的新时代的到来。因此,像GPT-4这样的多模态大语言模型 (MLLM) 最近已成为一个突出的研究领域,利用强大的大语言模型 (LLM) 作为执行多模态任务的认知框架。MLLM 所展现出的卓越且意想不到的能力超越了传统方法,表明了通向通用人工智能的潜在途径。为了实现这一目标,大量的图像文本对和视觉语言微调数据被用来训练冻结的 LLM(例如 LLaMA和Vicuna)和视觉表示(例如CLIP 和 BLIP-2)。翻译 2023-09-01 02:27:51 · 381 阅读 · 0 评论 -
Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language翻译
近年来,大型语言模型(LLM)彻底改变了自然语言理解,并在语义理解,问答和文本生成方面展示了显着能力,尤其是在zero-shot和few-shot的设置中。如图1(a)所示,已经提出了几种在视觉相关任务上使用LLM的方法。一种技术涉及训练视觉编码器以将每个图像表示为连续嵌入的序列,从而实现LLM的理解。另一个种采用了一个参数固定的视觉编码器,该编码器已受过对比训练,同时将新的层引入参数固定的LLM,这些层随后从头开始进行训练。翻译 2023-07-24 16:30:04 · 351 阅读 · 0 评论 -
KOSMOS-2: Grounding Multimodal Large Language Models to the World翻译
多模态大语言模型(MLLM)已成功地在多种任务中作为一个通用目标接口,例如语言,视觉和视觉语言任务。MLLM可以感知通用模态,包括文本,图像和音频,并基于zero-shot和few-shot设置,使用格式无关的文本生成响应。在这项工作中,我们解锁了多模态大语言模型的定位能力。定位能力可以为视觉-语言任务提供更方便,更有效的人机交互。它使用户能够直接指出图像中的目标或区域,而不是输入详细的文本说明来引用它,模型可以理解具有空间位置的图像区域。翻译 2023-07-15 14:55:46 · 2195 阅读 · 0 评论 -
Language Is Not All You Need: Aligning Perception with Language Models翻译
对语言,多模态感知,行动和世界建模的大量融合是迈向通用人工只智能的关键一步。在这项工作中,我们介绍了KOSMOS-1,这是一种Multimodal Large Language Model (MLLM),可以感知通用模态,基于上下文进行学习(即few-shot),并遵循指令(即zero-shot)。具体来说,我们在网络规模的多模态语料库中从头开始训练KOSMOS-1,包括任意交替的文本和图像,图像解释对以及文本数据。翻译 2023-07-12 17:07:33 · 253 阅读 · 0 评论 -
MIMIC-IT: Multi-Modal In-Context Instruction Tuning翻译
人工智能的最新进步集中在对话助手上,该助手具有理解用户意图并执行操作的能力。除了大语言模型(LLM)强大的泛化能力外,这些对话助手的显着成就还可以归因于指令微调的实践。它涉及通过多样化和高质量指令在一系列任务上微调LLM。通过组合指令微调,LLM可以提高对用户意图的理解,从而使他们能够在以前未知的任务中展现出提升的zero-shot能力。通过指令微调增加zero-shot性能的一个潜在原因是,它可以内化上下文,这在用户交互中是必须的,尤其是当用户输入跳过了常识上下文时。翻译 2023-06-14 16:56:33 · 703 阅读 · 0 评论 -
Transfer Visual Prompt Generator across LLMs
Background。近年来,大型语言模型(LLM)在类人人工智能方面有了很大的增长。通过扩大模型大小(例如,从11B到175B),LLMS具有理解人类语言的惊人能力。通过与视觉等其他模态相链接,基于文本的LLM会进一步增强,从而得到vision-language LLMs(VL-LLM),例如 ,BLIP-2,Flamingo,GPT-4等多模态对话系统,以及用于实体AI系统的PaLM-E。翻译 2023-05-18 17:17:50 · 509 阅读 · 0 评论 -
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models翻译
近年来,大型语言模型(LLM)经历了非常迅速的进步。凭借出色的语言理解能力,这些模型可以以zero-shot的方式执行各种复杂的语言任务。值得注意的是,GPT-4是一种大规模的多模态模型,最近被证明具有许多令人印象深刻的能力。例如,GPT-4可以产生非常详细和准确的图像描述,解释异常的视觉现象,甚至基于手写文本及指令构建网站。尽管GPT-4具有出色的能力,但其出色能力背后的方法仍然是一个谜。我们认为,这些卓越的技能可能来源于使用更先进的大型语言模型(LLM)。翻译 2023-04-30 15:35:24 · 495 阅读 · 0 评论 -
Flamingo: a Visual Language Model for Few-Shot Learning翻译
人工智能的一个关键方面是在给定少量指令的情况下,能够快速学习新任务的能力。尽管在计算机视觉方面已经取得了初步进展,但最广泛使用的范式仍然是首先在大量有监督数据上进行预训练,然后在感兴趣的任务上微调模型。但是,成功的微调通常需要数千个标注的数据。此外,它通常需要对每个任务的超参数进行精细调整,并且也是资源密集的。最近,在对比学习目标上训练多模态视觉语言模型,已经能够zero-shot应用到新任务,而无需进行微调。翻译 2023-04-14 12:53:28 · 5677 阅读 · 0 评论 -
ChatGPT is not all you need. A State of the Art Review of large Generative AI models翻译
生成式AI是指可以生成新内容的人工智能,而不是像专家系统简单地分析或使用现有数据。特别地,专家系统包含知识库,和通过if-else规则数据库生成内容的推理引擎。但是,当前生成式人工智能包含一个在语料库或数据库中训练的判别器或transformer模型,该模型能够将输入信息映射到潜在高维空间,包含一个生成器模型,该模型能够以同一个提示作为输入,并在每一个时刻生成一个随机行为来创建新的内容,这些模型根据特定方法,执行无监督,半监督或有监督学习。翻译 2023-03-31 15:20:45 · 176 阅读 · 0 评论 -
Learning Transferable Visual Models From Natural Language Supervision翻译
SOTA计算机视觉系统经过训练,以预测一组固定的提前定义的目标类别。这种受限的有监督形式限制了它们的通用性和可用性,因为需要其他标签的数据来指定其他的视觉概念。直接从原始文本学习图像是一种有希望的替代方案,它利用了更广泛的有监督源。我们证明,基于从互联网爬取的4亿【图像-文本】对数据集,预测标题与哪个图像相关这一简单的预训练任务是一种有效且可扩展的方法,能够从头学习SOTA图像表示。在预训练之后,自然语言被用来作为学习的视觉概念的描述,使模型能zero-shot迁移到下游任务。翻译 2023-03-15 14:10:46 · 192 阅读 · 0 评论 -
BLIP-2:Bootstrapping Language-Image Pre-training翻译
在过去的几年中,视觉语言预训练(VLP)的研究取得了迅速进步,在这种情况下,已经开发出越来越大的预训练模型,以不断地推动各种下游任务达到SOTA。但是,由于使用大型模型和大型数据集的端到端训练,大多数SOTA的视觉模型在预训练期间会产生很高的计算成本。视觉语言研究位于视觉和语言之间的交集区域,因此自然可以期望,视觉语言模型可以快速使用来自视觉和自然语言领域的单模态模型。在本文中,我们提出了一种通用和计算高效的VLP方法,该方法通过从已有的预训练视觉模型和语言模型中进行bootstrapping。翻译 2023-02-18 15:22:49 · 1422 阅读 · 0 评论 -
Cross-modal Memory Networks for Radiology Report Generation翻译
摘要医学成像在医学诊断的临床实践中起着重要作用,其中基于图像的文本报告对于了解它们并促进后期治疗至关重要。通过自动生成报告,有助于减轻放射科医师的负担,并显着促进临床自动化,这已经吸引了向医疗领域使用人工智能技术的兴趣。以前的研究主要遵循编码器 - 解码器框架并专注于文本生成的方面,几乎没有考虑跨模态映射的重要性,并明确利用这种映射以促进放射学报告生成。在本文中,我们提出了一种跨模态存储器网络(CMN)来增强用于放射学报告生成的编码器-解码器框架,其中共享存储器被设计为记录图像和文本之间的对齐,以便于跨模翻译 2021-11-18 20:04:10 · 2127 阅读 · 3 评论