Multimodal
文章平均质量分 66
主要是跟踪多模态大模型的相关文章,作简要介绍和归纳整理。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal LLM
多模态大型语言模型 (LLM) 在各种自然语言处理任务(包括从文档中提取数据)中表现出卓越的性能。但是,这些模型的准确性可能会受到文档平面内旋转(也称为倾斜)的显著影响,这是扫描文档的实际场景中的常见问题。本研究调查了文档偏斜对三种最先进的多模态 LLM 的数据提取准确性的影响:Anthropic Claude V3 Sonnet、GPT-4-Turbo 和 Llava:v1.6。我们专注于从合成生成的具有不同偏度的样本文档中提取特定实体。原创 2024-11-13 10:15:00 · 3 阅读 · 0 评论 -
OmniParser for Pure Vision Based GUI Agent
最近大型视觉语言模型的成功表明,在推动代理系统在用户界面上运行方面具有巨大的潜力。然而,我们认为,由于缺乏一种强大的屏幕解析技术,如GPT-4V作为跨不同应用程序的多个操作系统上的通用代理,这种多模态模型在很大程度上被低估了,该技术能够:1)可靠地识别用户界面内的可交互图标,2)理解屏幕截图中各种元素的语义,并准确地将预期动作与屏幕上的相应区域相关联。原创 2024-11-07 10:00:00 · 123 阅读 · 0 评论 -
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities
GPT-4o是一个包罗万象的模型,代表了大型多模态语言模型发展的一个里程碑。它可以理解视觉、听觉和文本模式,直接输出音频,并支持灵活的双工交互。开源社区的模型通常可以实现GPT-4o的一些功能,如视觉理解和语音聊天。然而,由于多模态数据、复杂的模型架构和训练过程的复杂性,训练一个包含所有模态的统一模型是具有挑战性的。在本文中,我们介绍了Mini-Omni2,一种能够为视觉和音频查询提供实时端到端语音响应的视听助手。通过集成预训练的视觉和听觉编码器,Mini-Omni2可以保持单个模态的性能。原创 2024-11-07 09:45:00 · 16 阅读 · 0 评论 -
A Survey of Multimodal Large Language Model from A Data-centric Perspective
多模态大型语言模型 (MLLM) 通过集成和处理来自多种模态(包括文本、视觉、音频、视频和 3D 环境)的数据来增强标准大型语言模型的功能。数据在这些模型的开发和改进中起着关键作用。在这项调查中,我们从以数据为中心的角度全面回顾了有关 MLLM 的文献。具体来说,我们探索了在 MLLM 的预训练和适应阶段准备多模态数据的方法。此外,我们还分析了数据集的评估方法,并回顾了评估 MLLM 的基准。我们的调查还概述了未来潜在的研究方向。原创 2024-10-26 19:23:10 · 104 阅读 · 0 评论 -
Movie Gen: A Cast of Media Foundation Models
我们介绍Movie Gen,这是一系列基础模型,可以生成具有不同宽高比和同步音频的高质量1080p高清视频。我们还展示了其他功能,例如基于精确指令的视频编辑和基于用户图像的个性化视频生成。我们的模型在多个任务上设定了最新的技术水平:文本到视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成。我们最大的视频生成模型是一个30B参数transformer,其最大上下文长度为73K视频token,对应于以每秒16帧的速度生成16秒的视频。原创 2024-10-23 09:00:00 · 122 阅读 · 0 评论 -
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
多模态大语言模型(MLLMs)被广泛认为是通用人工智能(AGI)研究的关键。MLLM的核心在于其实现跨模态对齐的能力。为了实现这一目标,当前的MLLM通常遵循两个阶段的训练范式:预训练阶段和指令调优阶段。尽管取得了成功,但这些模型中对齐能力的建模仍存在不足。首先,在预训练阶段,模型通常假设所有图像文本对都是一致对齐的,但事实上不同图像文本对之间的对齐程度是不一致的。其次,目前用于微调的指令包含各种任务,不同任务的指令通常需要不同级别的对齐能力,但之前的MLLM忽略了这些差异化的对齐需求。原创 2024-10-20 11:33:47 · 167 阅读 · 0 评论 -
Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning
本文提出了第一项研究,探讨了多模态大型语言模型参数量化的潜力,以减轻视觉语言指令调整过程中遇到的重大资源限制。我们介绍了一种基于多模态预热的量化感知 Scale LeArning 方法,称为 QSLAW。该方法基于两项关键创新:(1) 学习量化 LLM 权重的分组比例因子,以减轻由激活异常值引起的量化误差并实现更有效的视觉语言指令调整;(2) 实现多模态热身,逐步整合语言和多模态训练样本,从而防止量化模型与多模态数据的过度拟合,同时确保多模态大型语言模型稳定适应下游视觉语言任务。原创 2024-10-08 15:29:57 · 184 阅读 · 0 评论 -
Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Reference
新兴的多模态大型语言模型 (MLLM) 在图表问答 (CQA) 方面表现出巨大的潜力。最近的工作主要集中在通过数据收集和合成来扩大训练数据集(即图表、数据表和问答 (QA) 对)。然而,我们对现有 MLLM 和 CQA 数据集的实证研究揭示了显着的差距。首先,当前的数据收集和合成侧重于数据量,缺乏对细粒度视觉编码和 QA 任务的考虑,导致数据分布不平衡,与实际 CQA 场景不同。其次,现有工作遵循最初为自然图像设计的基本 MLLM 的训练配方,探索对独特图表特征(如富文本元素)的适应。原创 2024-10-08 15:24:36 · 135 阅读 · 0 评论 -
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications
大型语言模型 (LLM) 具有先进的金融应用,但它们通常缺乏足够的金融知识,并且难以处理涉及表格和时间序列数据等多模态输入的任务。为了解决这些限制,我们引入了 Open-FinLLM,这是一系列金融 LLM。我们从 FinLLaMA 开始,它在 520 亿个token金融语料库上进行了预训练,结合文本、表格和时间序列数据来嵌入全面的金融知识。然后,FinLLaMA 使用 573K 财务指令进行指令微调,形成 FinLLaMA 指令,从而提高任务性能。原创 2024-09-22 09:57:41 · 116 阅读 · 0 评论 -
A New Era in Computational Pathology: A Survey on Foundation and Vision-Language Models
深度学习的最新进展彻底改变了计算病理学 (CPath) 领域,通过将基础模型 (FM) 和视觉语言模型 (VLM) 集成到病理学家的评估和决策过程中,反过来又改变了病理学家的诊断工作流程。FM 通过学习表示空间来克服 CPath 中现有深度学习方法的局限性,该表示空间可以在没有明确监督的情况下适应各种下游任务。VLM 允许将用自然语言编写的病理报告用作丰富的语义信息源,以改进现有模型并以自然语言形式生成预测。在本次调查中,对 CPath 中 FM 和 VLM 的最新创新进行了全面、系统的概述。原创 2024-09-19 15:05:17 · 47 阅读 · 0 评论 -
DIFFUSION MODELS ARE REAL-TIME GAME ENGINES
我们介绍GameNGen,这是第一个完全由神经模型驱动的游戏引擎,它能够在长轨迹上与复杂环境进行高质量的实时交互。GameNGen可以在单个TPU上以每秒超过20帧的速度交互式模拟经典游戏DOOM。下一帧预测的PSNR为29.4,与有损JPEG压缩相当。人类评分员在区分游戏短片和模拟短片方面只比随机机会好一点。GameNGen的训练分为两个阶段:(1)RL代理学习玩游戏并记录训练过程,(2)训练扩散模型以产生下一帧,条件是过去帧和动作的顺序。调节增强可以在长轨迹上实现稳定的自回归生成。原创 2024-09-06 10:12:43 · 76 阅读 · 0 评论 -
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations
我们提出了xGen-VideoSyn-1,这是一种文本到视频(T2V)生成模型,能够从文本描述中生成逼真的场景。我们通过引入视频变分自编码器(VidVAE)来扩展潜在扩散模型(LDM)架构。我们的视频VAE在空间和时间上压缩视频数据,显著减少了视觉标记的长度以及与生成长序列视频相关的计算需求。为了进一步解决计算成本问题,我们提出了一种分割合并策略,该策略可以保持视频片段之间的时间一致性。我们的扩散Transformer(DiT)模型结合了空间和时间自我关注层,实现了跨不同时间框架和纵横比的鲁棒泛化。原创 2024-09-06 10:06:16 · 139 阅读 · 0 评论 -
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
我们介绍了Transfusion,这是一种在离散和连续数据上训练多模态模型的方法。Transfusion将语言建模损失函数(下一个token预测)与扩散相结合,在混合模态序列上训练单个Transformer。我们在文本和图像数据的混合上从头开始预训练多达7B个参数的多个Transfusion模型,建立了关于各种单模态和跨模态基准的缩放规律。我们的实验表明,Transfusion的缩放效果明显优于量化图像和在离散图像token上训练语言模型。原创 2024-09-02 17:20:26 · 195 阅读 · 0 评论 -
Joint Visual and Text Prompting for Zero-Shot Object-Oriented Perception with Multimodal LLM
多模态大型语言模型(MLLM),如GPT-4V和Gemini Pro,在视觉问答(VQA)中实现人类水平的感知方面面临挑战,特别是在面向对象的感知任务中,这些任务需要对对象身份、位置或属性进行细粒度的理解,正如实证结果所表明的那样。这主要是因为它们将复杂的视觉线索与文本信息和潜在的物体幻觉有效整合的能力有限。本文提出了一种新的方法,即联合视觉和文本提示(VTPrompt),该方法利用细粒度的视觉信息来增强VQA中MLLM的能力,特别是面向对象的感知能力。原创 2024-09-01 11:54:08 · 61 阅读 · 0 评论 -
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
本报告介绍了xGen-MM(也称为BLIP-3),这是一个用于开发大型多模态模型(LMM)的框架。该框架由精心策划的数据集、训练配方、模型架构和由此产生的LMM套件组成。xGen-MM是xGen-MultiModal的缩写,它在基础AI模型上扩展了Salesforce的xGen计划。我们的模型经过一系列任务的严格评估,包括单图像和多图像基准测试。我们的预训练基础模型表现出强大的上下文学习能力,而指令调优模型在具有相似模型大小的开源LMM中表现出了具有竞争力的性能。原创 2024-08-30 13:39:42 · 287 阅读 · 0 评论 -
A Survey on Benchmarks of Multimodal Large Language Models
多模态大语言模型基准调查多模态大语言模型(MLLM)由于其在视觉问答、视觉感知、理解和推理等各种应用中的出色表现,在学术界和工业界越来越受欢迎。在过去的几年里,人们付出了巨大的努力来从多个角度审视 MLLM。本文对 MLLM 的 200 个基准和评估进行了全面回顾,重点关注 (1) 感知和理解、(2) 认知和推理、(3) 特定领域、(4) 关键能力和 (5) 其他模式。最后,我们讨论了当前 MLLM 评估方法的局限性,并探讨了有前景的未来方向。原创 2024-08-29 10:22:48 · 603 阅读 · 0 评论 -
LITE: Modeling Environmental Ecosystems with Multimodal Large Language Models
环境生态系统的建模在我们星球的可持续管理中起着关键作用。对关键环境变量在空间和时间上的准确预测有助于制定明智的政策和决策,从而改善民生。最近,基于深度学习的方法在预测环境变量的时空关系建模方面显示出了希望。然而,由于数据收集的高昂成本和测量仪器的故障,这些方法在处理环境数据中常见的不完整特征和分布变化方面往往不足。为了解决这些问题,我们提出了LITE——一种用于环境生态系统建模的多模态大型语言模型。具体来说,LITE通过将不同的环境变量转换为自然语言描述和折线图图像来统一它们。原创 2024-08-26 17:10:01 · 35 阅读 · 0 评论 -
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning
视觉语言预训练显著提高了各种图像语言应用程序的性能。然而,视频相关任务的预训练过程需要非常大的计算和数据资源,这阻碍了视频语言模型的进步。本文研究了一种简单、高效、资源少的方法,用于调整现有的图像语言预训练模型,以实现密集视频理解。我们的初步实验表明,直接微调预训练的图像语言模型,将多帧作为视频数据集的输入,会导致性能饱和甚至下降。我们进一步的研究表明,这在很大程度上归因于学习到的高范数视觉特征的偏见。原创 2024-08-24 19:16:01 · 86 阅读 · 0 评论 -
Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models
我们介绍了Groma,一种具有基准和细粒度视觉感知能力的多模态大型语言模型(MLLM)。除了全面的图像理解,Groma还擅长区域级任务,如区域字幕和视觉基础。这些功能建立在本地化的视觉标记化机制之上,在该机制中,图像输入被分解为感兴趣的区域,随后被编码为区域标记。通过将区域标记集成到用户指令和模型响应中,我们无缝地使Groma能够理解用户指定的区域输入,并将其文本输出基于图像。此外,为了增强Groma的基准聊天能力,我们利用强大的GPT-4V和视觉提示技术策划了一个视觉基准指令数据集。原创 2024-08-20 15:05:11 · 164 阅读 · 0 评论 -
Towards Efficient Resume Understanding: A Multi-Granularity Multi-Modal Pre-Training Approach
在当今广泛的在线招聘时代,简历理解已被广泛认为是一项基本而关键的任务,其目的是从简历文档中自动提取结构化信息。与传统的基于规则的方法相比,使用最近提出的预训练文档理解模型可以大大提高简历理解的有效性。然而,目前的方法忽略了简历中呈现的结构化信息中的层次关系,并且难以有效地解析简历。为此,本文提出了一种新的模型,即ERU,以实现高效的简历理解。具体来说,我们首先引入了一种布局感知的多模态融合transformer,用于用集成的文本、视觉和布局信息对简历中的片段进行编码。原创 2024-08-20 14:55:50 · 36 阅读 · 0 评论 -
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI
大型视觉语言模型(LVLM)能够处理各种数据类型,如成像、文本和生理信号,并可应用于各个领域。在医疗领域,LVLM具有很高的潜力为诊断和治疗提供实质性的帮助。在此之前,制定基准来评估LVLM在各种医疗应用中的有效性至关重要。当前的基准通常建立在特定的学术文献之上,主要关注单一领域,缺乏不同的感知粒度。因此,他们面临着具体的挑战,包括有限的临床相关性、不完整的评估以及对交互式LVLM的指导不足。原创 2024-08-15 15:03:34 · 45 阅读 · 0 评论 -
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models
尽管多模态大型语言模型(MLLM)已经显示出有前景的多功能性,但它们在下游任务上的性能仍然不如专用模型,这使得有必要进行自适应以提高其效用。然而,微调方法需要对每个模型进行独立训练,从而导致巨大的计算和内存开销。在这篇论文中,我们提出了一种新的设置,我们的目标是通过一组针对下游任务优化的共享参数来提高各种MLLM的性能。为了实现这一目标,我们提出了可转移视觉提示(TVP),这是一种简单有效的生成视觉提示的方法,可以在仅在一个模型上训练后转移到不同的模型并提高其在下游任务上的性能。原创 2024-08-15 14:49:56 · 61 阅读 · 0 评论 -
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models
多模态大型语言模型(MLLM)中的指令调优旨在将骨干LLM与预训练的特征编码器平滑地集成到下游任务中。主要的挑战是如何通过合作学习有效地找到协同作用,其中LLM在下游任务中调整其推理能力,而特征编码器调整其编码以提供更相关的模态信息。在本文中,我们从理论和实证的角度分析了MLLM指令调优,我们发现两个组件(即特征编码器和LLM)之间的不平衡学习会导致学习梯度减小,从而减缓模型收敛,并由于学习不足而经常导致次优结果。原创 2024-08-12 19:43:54 · 221 阅读 · 0 评论 -
BLINK : Multimodal Large Language Models Can See but Not Perceive
我们介绍Blink,这是一种新的多模态语言模型(LLM)基准,侧重于其他评估中没有的核心视觉感知能力。大多数Blink任务都可以由人类“在眨眼之间”解决(例如,相对深度估计、视觉对应、取证检测和多视图推理)。然而,我们发现这些对感知要求很高的任务给当前的多模态LLM带来了重大挑战,因为它们抵制通过自然语言进行调解。Blink将14个经典的计算机视觉任务重新格式化为3807个选择题,并配以单个或多个图像和视觉提示。原创 2024-08-11 09:43:56 · 127 阅读 · 0 评论 -
On Speculative Decoding for Multimodal Large Language Models
多模态大型语言模型(MLLM)的推理速度很慢,因为它们的大型语言模型主干受到内存带宽瓶颈的影响,并自动回归生成token。本文探讨了推测解码在提高MLLM推理效率方面的应用,特别是LLaVA 7B模型。我们证明,仅使用语言的模型可以作为LLaVA 7B推测解码的良好草稿模型,绕过了草稿模型对图像标记及其相关处理组件的需求。我们在三个不同任务上的实验表明,使用我们从头开始训练的115M参数语言模型,推测解码可以实现高达2.37倍的内存限制加速。原创 2024-08-10 10:25:57 · 35 阅读 · 0 评论 -
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models
多模态大型语言模型(MLLM)在各种多模态任务上显示出令人印象深刻的结果。然而,大多数现有的MLLM并不适合面向文档的任务,这些任务需要细粒度的图像感知和信息压缩。在本文中,我们介绍了TextHawk,这是一种专门为面向文档的任务设计的MLLM,同时保留了MLLM的一般功能。TextHawk旨在通过设计四个专用组件来探索高效的细粒度感知。首先,提出了一种重新采样和重新排列(ReSA)模块,以减少文档文本中的冗余,降低MLLM的计算成本。原创 2024-08-01 19:21:40 · 114 阅读 · 0 评论 -
PMG : Personalized Multimodal Generation with Large Language Models
大型语言模型(LLMs)的出现彻底改变了文本理解和生成的能力。多模态生成引起了工业界和学术界的极大关注,但个性化生成方面的工作很少,个性化生成在推荐系统等领域有着重要的应用。本文提出了使用LLM进行个性化多模态生成的第一种方法,展示了它的应用,并通过对两个数据集的广泛实验研究验证了它的性能。所提出的方法,即个性化多模态生成(简称PMG),首先将用户行为(例如,推荐系统中的点击或与虚拟助理的对话)转换为自然语言,以促进LLM理解并提取用户偏好描述。原创 2024-07-27 17:14:18 · 191 阅读 · 0 评论 -
Multimodal Instruction Tuning with Conditional Mixture of LoRA
多模态大型语言模型(MLLM)在不同领域的各种任务中表现出了非凡的熟练程度,人们越来越关注提高它们对看不见的多模态任务的零距离泛化能力。多模态指令调整已经成为一种成功的策略,通过指令在不同的多模态任务上微调预训练模型来实现零样本泛化。随着MLLM的复杂性和规模的增长,对低秩自适应(LoRA)等参数高效微调方法的需求变得至关重要,LoRA可以用最少的参数集进行微调。然而,在多模态指令调优中应用LoRA会带来任务干扰的挑战,这会导致性能下降,特别是在处理大量多模态任务时。原创 2024-07-25 09:46:02 · 96 阅读 · 0 评论 -
A Review of Multi-Modal Large Language and Vision Models
大型语言模型(LLMs)最近已成为研究和应用的焦点,这得益于它们前所未有的理解和生成具有人类质量的文本的能力。最近,LLM已经扩展到多模态大型语言模型(MMLLM),这扩展了它们处理图像、视频和音频信息以及文本的能力。这打开了文本到视频生成、图像字幕、文本到语音等应用程序,可以通过将LLM改装为具有多模态功能或从头开始构建MM-LLM来实现。本文对具有多模态能力的LLM以及最近的MM LLM的现状进行了广泛的回顾。原创 2024-07-19 15:06:22 · 1329 阅读 · 0 评论 -
MJ-BENCH: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation?
虽然DALLE-3和Stable Diffusion等文本到图像模型正在迅速激增,但它们经常遇到幻觉、偏见和产生不安全、低质量输出等挑战。为了有效地解决这些问题,至关重要的是根据多模态法官的反馈将这些模型与期望的行为相一致。尽管具有重要意义,但目前的多模态法官经常对其能力和局限性进行不充分的评估,这可能会导致不一致和不安全的微调结果。原创 2024-07-18 15:14:58 · 50 阅读 · 0 评论 -
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
多模态大型语言模型(MLLMs)的最新进展值得注意,然而,这些通用领域的MLLMs在理解用户界面(UI)屏幕并与之有效交互的能力方面往往不足。在本文中,我们介绍了Ferret UI,这是一种新的MLLM,旨在增强对移动UI屏幕的理解,具有参考、基础和推理功能。考虑到UI屏幕通常比自然图像显示出更细长的纵横比,并且包含更小的感兴趣对象(例如图标、文本),我们在Ferret之上加入了“任何分辨率”,以放大细节并利用增强的视觉功能。原创 2024-07-11 14:53:14 · 130 阅读 · 0 评论 -
Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompt
随着多模态大型语言模型(MLLM)的出现和广泛部署,确保其安全性的必要性变得越来越明显。然而,随着附加模式的集成,MLLMs暴露在新的漏洞中,使其容易受到基于结构化的越狱攻击,其中语义内容(例如“有害文本”)被注入图像中以误导MLLMs。在这项工作中,我们的目标是防范这种威胁。具体而言,我们提出了自适应屏蔽提示(AdaShield),它在输入前准备防御提示,以保护MLLMs免受基于结构的越狱攻击,而无需微调MLLMs或训练额外的模块(例如,后期内容检测器)。原创 2024-07-08 17:39:49 · 93 阅读 · 0 评论 -
Examining reasoning with text and sound components in Multimodal Large Language Models
大型语言模型(LLM)已经展示了非凡的推理能力,尤其是在连接思想和遵守逻辑规则解决问题方面。这些模型已经发展为适应各种数据模式,包括声音和图像,称为多模态LLM(MLLM),能够描述图像或录音。先前的工作已经证明,当MLLMs中的LLM组件被冻结时,音频或视觉编码器用于为声音或图像输入加字幕,以便于使用LLM组件进行基于文本的推理。我们感兴趣的是使用LLM的推理能力来促进分类。在本文中,我们通过字幕/分类实验证明,在生成音频字幕时,音频MLLM不能完全利用其LLM的基于文本的推理。原创 2024-07-08 16:51:28 · 36 阅读 · 0 评论 -
Multimodal Large Language Models to Support Real-World Fact-Checking
虚假信息对现实世界构成威胁,尤其是与误导性图像相结合时。多模态大语言模型将图像理解与语言模型丰富的知识和解释能力相结合,已成为人类处理大量信息的工具。然而,它们作为协助事实核查的多模态工具的能力和局限性仍然研究不足。以下是弥合这一差距的目标。特别是,我们提出了一个系统评估当前多模态模型能力的框架,以促进现实世界的事实核查。我们的方法是无证据的,只利用这些模型的内在知识和推理能力。通过设计提取模型预测、解释和置信水平的提示,我们对模型的准确性、偏差和其他关键因素进行了详细分析。原创 2024-07-03 08:56:34 · 71 阅读 · 0 评论 -
InteraRec: Screenshot Based Recommendations Using Multimodal Large Language Models
网络日志由详细描述用户在任何网站上的活动的记录组成,提供了对用户偏好、行为和兴趣的宝贵见解。许多推荐算法采用协作过滤、基于内容的过滤和混合方法等策略,利用通过这些博客挖掘的数据向用户提供个性化推荐。尽管这些博客中有丰富的信息,但从中识别和提取相关信息和关键特征需要进行广泛的工程工作。数据的复杂性也对解释提出了挑战,尤其是对非专家来说。在这项研究中,我们引入了一个复杂的交互式推荐框架,称为InteraRec,它与完全依赖博客生成推荐的传统方法不同。InteraRec框架在用户浏览网站时捕捉网页的高频屏幕截图。原创 2024-07-01 14:29:38 · 33 阅读 · 0 评论 -
Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics
DeepFakes是指人工智能生成的媒体内容,由于其被用作虚假信息的手段,因此越来越受到关注。检测DeepFakes目前通过编程的机器学习算法来解决。在这项工作中,我们研究了多模态大型语言模型(LLM)在DeepFake检测中的能力。我们进行了定性和定量实验来演示多模态LLM,并表明它们可以通过仔细的实验设计和提示工程来暴露人工智能生成的图像。考虑到LLM并非天生适合媒体取证任务,而且该过程不需要编程,这一点很有趣。我们讨论了多模态LLM在这些任务中的局限性,并提出了可能的改进建议。原创 2024-06-28 15:52:09 · 65 阅读 · 0 评论 -
Toward Interactive Regional Understanding in Vision-Large Language Models
最近的视觉语言预训练(VLP)模型已经显示出显著的进步。然而,这些模型严重依赖于仅捕获图像的粗略和全局信息的图像-文本对,导致其区域理解能力受到限制。在这项工作中,我们介绍了RegionVLM,它配备了明确的区域建模功能,使他们能够理解用户指示的图像区域。为了实现这一点,我们设计了一个简单而创新的架构,不需要修改模型架构或目标功能。此外,我们利用了一个包含新信息来源的数据集,即本地化叙述,这在以前的VLP研究中被忽视了。原创 2024-06-26 16:30:33 · 46 阅读 · 0 评论 -
Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models
以其先进的指令遵循和推理能力而闻名的多模态大型语言模型(MLLMs)的兴起,极大地推动了视觉推理领域的发展。然而,由于其图像标记化过程的局限性,大多数MLLM难以捕捉图像中文本和对象的精细细节,尤其是在高分辨率样本中。为了克服这一限制,我们引入了P2G,这是一种用于MLLMs即插即用接地的新框架。P2G利用MLLM的工具使用潜力,使用专家代理将推理动态地嵌入图像中的关键视觉和文本元素,从而通过多模态提示实现深思熟虑的推理。原创 2024-06-26 15:09:57 · 59 阅读 · 0 评论 -
VideoAgent: Long-form Video Understanding with Large Language Model as Agent
长格式视频理解是计算机视觉中的一个重大挑战,需要一个能够对长多模态序列进行推理的模型。受人类对长视频理解的认知过程的启发,我们强调交互式推理和规划,而不是处理长视频输入的能力。我们介绍了一种新的基于代理的系统VideoAgent,该系统使用大型语言模型作为中心代理来迭代识别和编译关键信息以回答问题,视觉语言基础模型作为翻译和检索视觉信息的工具。根据具有挑战性的EgoSchema和NExT-QA基准进行评估,VideoAgent在平均仅使用8.4和8.2帧的情况下,实现了54.1%和71.3%的零样本准确率。原创 2024-06-25 19:47:10 · 91 阅读 · 0 评论 -
SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection
由于其潜在的高风险,虚假信息是一个普遍存在的社会问题。断章取义(OOC)错误信息是误导观众的最简单、最有效的方法之一,真实的图像被虚假的文本重新利用。目前的方法侧重于评估图像文本的一致性,但对其判断缺乏令人信服的解释,这对揭穿错误信息至关重要。尽管多模态大型语言模型(MLLMs)在视觉推理和解释生成方面具有丰富的知识和天生的能力,但它们在理解和发现微妙的跨模态差异方面仍然缺乏成熟度。在本文中,我们介绍了SNIFFER,这是一种专门用于OOC错误信息检测和解释的新型多模态大型语言模型。原创 2024-06-25 17:39:10 · 100 阅读 · 0 评论
分享