Multimodal
文章平均质量分 80
主要是跟踪多模态大模型的相关文章,作简要介绍和归纳整理。
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025_NIPS_Generating Images with Multimodal Language Models
我们提出了一种将冻结的纯文本大型语言模型(LLM)与预训练图像编码器和解码器模型融合的方法,通过在它们的嵌入空间之间建立映射实现这一目标。该模型展现出广泛的多模态能力:图像检索、新图像生成和多模态对话。我们的方法是首个能够基于任意交错的图像和文本输入,生成连贯图像(和文本)输出的方案。为了在图像生成任务上实现优异性能,我们设计了一个高效的映射网络,将LLM与现成的文本到图像生成模型关联起来。该映射网络将文本的隐藏表示转换为视觉模型的嵌入空间,使我们能够利用LLM强大的文本表示能力实现视觉输出。原创 2026-05-31 12:30:00 · 17 阅读 · 0 评论 -
2025_NIPS_See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model
我们提出SEE&TREK,这是首个专为提升纯视觉约束下多模态大语言模型(MLLMs)空间理解能力设计的无训练提示框架。尽管已有研究通过整合深度图或点云等模态来改善空间推理,但纯视觉空间理解仍未得到充分探索。SEE&TREK通过聚焦两大核心原则来填补这一空白:增加视觉多样性和运动重建。在视觉多样性方面,我们采用最大语义丰富度采样,利用现成的感知模型提取能够捕捉场景结构的语义丰富关键帧。在运动重建方面,我们模拟视觉轨迹,并将相对空间位置编码到关键帧中,以同时保留空间关系和时间连贯性。原创 2026-04-28 10:30:00 · 23 阅读 · 0 评论 -
2025_NIPS_Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model
在多模态大语言模型(MLLMs)领域,视觉-语言连接器扮演着至关重要的角色,负责衔接预训练视觉编码器与大语言模型(LLMs)。尽管其意义重大,但相关研究仍相对匮乏。本研究旨在提出一种高性能的视觉-语言连接器,使MLLMs在保持低计算成本的同时实现高准确率。我们首先揭示了视觉Transformer中视觉锚点的存在,并提出一种成本效益高的搜索算法来提取这些锚点。原创 2026-04-24 12:30:00 · 22 阅读 · 0 评论 -
2025_NIPS_ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detectio
多模态大语言模型为各类多模态任务开辟了新可能,但它们在图像篡改检测中的潜力尚未得到挖掘。当直接应用于图像篡改检测(IMD)任务时,多模态大语言模型生成的推理文本常存在幻觉现象和过度思考问题。为解决这一问题,我们提出ForgerySleuth框架,利用多模态大语言模型进行全面的线索融合,并生成指示具体篡改区域的分割结果。此外,我们通过Chain-of-Clues提示词构建了ForgeryAnalysis数据集,该数据集包含分析与推理文本,实现了图像篡改检测任务的升级。原创 2026-04-22 10:30:00 · 252 阅读 · 0 评论 -
2025_NIPS_Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
时空视频定位(STVG)旨在根据输入文本查询定位视频中的时空管(spatio-temporal tube)。本文利用多模态大语言模型(MLLMs)探索STVG的零样本解决方案,并揭示了关于MLLMs的两个关键洞察:(1)MLLMs会动态分配特殊令牌(称为接地令牌)以对接文本查询;(2)由于无法充分整合文本查询中的线索(如属性、动作)进行推理,MLLMs的定位性能往往不够理想。原创 2026-04-11 12:30:00 · 25 阅读 · 0 评论 -
2025_NIPS_Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding
时空视频定位(STVG)旨在根据输入文本查询定位视频中的时空管(spatio-temporal tube)。本文利用多模态大语言模型(MLLMs)探索STVG的零样本解决方案,并揭示了关于MLLMs的两个关键洞察:(1)MLLMs会动态分配特殊令牌(称为接地令牌)以对接文本查询;(2)由于无法充分整合文本查询中的线索(如属性、动作)进行推理,MLLMs的定位性能往往不够理想。原创 2026-04-11 11:30:00 · 23 阅读 · 0 评论 -
2025_NIPS_MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation
推理分割旨在基于人类意图和空间推理分割复杂场景中的目标物体。尽管近年来多模态大语言模型(MLLMs)在2D图像推理分割中展现出令人瞩目的性能,但将这些能力迁移至3D场景的研究仍有待深入。本文提出MLLM-For3D,一种简洁且高效的框架,用于将2D MLLMs的知识迁移至3D场景理解。具体而言,我们利用MLLMs生成多视图伪分割掩码及对应的文本嵌入,随后将2D掩码反投影至3D空间并与文本嵌入对齐。原创 2026-04-09 11:30:00 · 22 阅读 · 0 评论 -
2025_NIPS_Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchma
多模态语言分析是一个快速发展的领域,它利用多种模态来增强对人类对话话语背后高层语义的理解。尽管其意义重大,但鲜有研究探讨多模态大型语言模型(MLLM)理解认知层面语义的能力。本文中,我们提出了MMLA——一个专门设计用于填补这一空白的综合基准。MMLA包含超过61K条来自模拟场景和真实世界场景的多模态话语,覆盖多模态语义的六个核心维度:意图、情感、对话行为、情绪、说话风格和沟通行为。我们采用三种方法(零样本推理、监督微调、指令微调)评估了八个主流分支的LLM和MLLM。原创 2026-04-07 07:30:00 · 29 阅读 · 0 评论 -
2025_NIPS_SafePTR : Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanis
内容警告:本文包含少量有害图像和文本!多模态大型语言模型(MLLMs)通过整合视觉输入,将大型语言模型(LLMs)的能力扩展到视觉推理领域。然而,这种整合也引入了新的漏洞,使得MLLMs易受多模态越狱攻击,阻碍了其安全部署。现有防御方法(包括图像转文本翻译、安全提示工程和多模态安全调优)试图通过将多模态输入与LLMs的内置安全机制对齐来解决该问题,但它们未能揭示多模态漏洞的根本原因,尤其是有害多模态令牌如何触发MLLMs的越狱行为?原创 2026-04-01 10:30:00 · 118 阅读 · 0 评论 -
2025_NIPS_JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
本文提出 JavisGPT,这是首个用于联合音视频(JAV)理解与生成的统一多模态大语言模型(MLLM)。该模型采用简洁的编码器-LLM-解码器架构,核心包含 SyncFusion 模块(用于音视频时空融合)和同步感知的可学习查询(用于衔接预训练 JAV-DiT 生成器)。此设计支持从多模态指令中实现时间连贯的音视频理解与生成。我们设计了高效的三阶段训练流程,包括多模态预训练、音视频微调与大规模指令调优,基于现有视觉-语言模型逐步构建多模态理解与生成能力。原创 2026-04-05 07:30:00 · 28 阅读 · 0 评论 -
2025_NIPS_MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO
近期的文本到图像系统在处理多模态输入和复杂推理任务时面临局限。本文提出统一多模态大语言模型MindOmni,通过强化学习融入推理生成能力以应对这些挑战。MindOmni采用三阶段训练策略:1)设计含解码器式扩散模块的统一视觉语言模型;2)使用思维链(CoT)指令数据进行有监督微调;3)提出推理生成策略优化(RGPO)算法,利用多模态反馈有效引导策略更新。实验结果表明,MindOmni在理解和生成基准测试中均优于现有模型,展现出先进的细粒度推理生成能力,尤其在数学推理指令任务中表现突出。所有代码将开源于。原创 2026-03-31 12:30:00 · 28 阅读 · 0 评论 -
2025_NIPS_HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models
该研究针对多模态大型语言模型(MLLMs)训练中存在的计算资源消耗巨大、视觉与文本模态多粒度对齐不足的问题,提出了一种基于双曲空间的高效训练范式HyperET。核心背景是现有MLLMs依赖CLIP、SAM等视觉编码器,这些编码器仅能在单一粒度(如像素级或对象级)与语言对齐,导致跨模态对齐效率低下,需海量GPU资源支撑训练。而双曲空间天然具备层级建模能力,可通过双曲半径量化粒度(原点附近为低粒度视觉特征,边界附近为高粒度语义特征),为解决粒度不匹配问题提供了理论基础。原创 2026-03-31 11:30:00 · 33 阅读 · 0 评论 -
2025_NIPS_ModuLM: Enabling Modular and Multimodal Molecular Relational Learning with Large Language
本文针对分子关系学习(MRL)中现有大语言模型(LLM)框架缺乏多模态输入支持和灵活架构的问题,提出模块化框架ModuLM。该框架支持1D、2D、3D分子输入格式,整合多种编码器、交互层和LLM骨干网络,可动态构建超50,000种模型配置,适用于药物-药物相互作用(DDI)、溶质-溶剂相互作用(SSI)等任务,通过增量预训练、模态对齐和灵活微调提升模型性能。分子关系学习(MRL)旨在理解分子对之间的相互作用,在推动生化研究方面发挥着关键作用。原创 2026-03-29 10:30:00 · 24 阅读 · 0 评论 -
2025_NIPS_STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Au
本文针对自动驾驶领域多模态大语言模型(VLMs)的时空推理能力评估缺口,提出了STSBench——一个基于场景的基准测试框架,并在nuScenes数据集上实例化得到STSnu基准。我们提出STSBench,一个基于场景的基准测试框架,用于评估自动驾驶领域视觉语言模型(VLMs)的整体理解能力。该框架利用真值标注从任意数据集自动挖掘预设交通场景,提供直观的用户界面以实现高效人工验证,并生成选择题用于模型评估。原创 2026-03-22 10:30:00 · 31 阅读 · 0 评论 -
2025_NIPS_Learning to Steer: Input-dependent Steering for Multimodal LLMs
该研究聚焦多模态大语言模型(MLLMs)的后验引导问题,针对现有静态引导方法(如均值引导)仅使用单一固定引导向量、无法适配输入依赖型目标行为的局限,提出了输入依赖型引导方案。提出Prompt-to-Steer(P2S)方法,通过输入特异性对比提示生成专属引导向量,但该方法因测试时需已知对比提示而难以落地;设计Learn-to-Steer(L2S)框架,利用轻量辅助网络学习从输入潜在表示映射到P2S引导向量,实现低计算开销的输入依赖型引导;原创 2026-03-22 08:30:00 · 132 阅读 · 0 评论 -
2025_NIPS_Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and Empirical
本文聚焦多模态大语言模型(MLLMs)的视觉冗余问题,通过分析注意力行为发现其推理过程存在三个核心阶段:早期融合、模态内建模、多模态推理。研究揭示,视觉 tokens 在文本 tokens 获取足够视觉信息后便不再对推理有实质贡献。基于此,提出动态视觉 token 退出方法(DyVTE),通过轻量级超网络感知文本 token 状态,自动决策视觉 tokens 的退出时机,在不损失性能的前提下降低计算开销。原创 2026-03-21 11:15:00 · 38 阅读 · 0 评论 -
2025_NIPS_Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
本文提出,一种仅基于2D视频输入就能增强多模态大语言模型(MLLMs)视觉空间智能的框架。现有MLLMs在2D任务上表现出色,但3D空间推理能力有限,且多数3D MLLMs依赖额外3D/2.5D数据(如点云、深度图),限制了实际应用场景。Spatial-MLLM通过双编码器架构、空间感知帧采样策略和专属训练流程,在纯2D输入下实现了先进的空间理解与推理性能,在VSI-Bench、ScanQA等多个基准测试中表现突出。原创 2026-03-20 10:30:00 · 30 阅读 · 0 评论 -
2025_NIPS_MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
该研究针对现有多模态大语言模型(MLLMs)评估基准局限于单视频理解、无法满足现实场景中多视频分析需求的问题,提出了首个全面的多视频理解评估基准MVU-Eval。多模态大语言模型(MLLMs)的出现将人工智能能力拓展到了视觉模态,但现有评估基准仍局限于单视频理解,忽视了现实场景(如体育分析、自动驾驶)中对多视频理解的关键需求。为填补这一重要空白,我们提出了MVU-Eval——首个用于评估MLLMs多视频理解能力的综合基准。原创 2026-03-15 08:30:00 · 82 阅读 · 0 评论 -
Helios: Real Real-Time Long Video Generation Model
我们提出Helios,这是首个14B参数的视频生成模型,在单张NVIDIA H100 GPU上运行速度可达19.5 FPS,支持分钟级视频生成,同时质量与强基线模型相当。我们在三个关键维度取得突破:(1)无需自强制、误差库或关键帧采样等常用抗漂移启发式方法,仍能保持长视频生成的稳定性;(2)无需KV缓存、稀疏/线性注意力或量化等标准加速技术,实现实时生成;(3)无需并行或分片框架即可完成训练,支持图像扩散级别的批量大小,且80GB GPU内存可同时容纳4个14B模型。原创 2026-03-14 11:30:00 · 45 阅读 · 0 评论 -
2025_NIPS_Unlabeled Data Improves Fine-Grained Image Zero-shot Classification with Multimodal LLMs
尽管多模态大型语言模型(MLLMs)在通用零样本图像分类任务中展现出良好效果,但细粒度图像分类仍然具有挑战性。该任务要求精准关注细微的视觉细节以区分视觉相似的子类——而如果没有明确引导,MLLMs很容易忽略这些细节。为解决这一问题,我们提出了AutoSEP,这是一种迭代式自监督提示学习框架,旨在以完全无监督的方式增强MLLMs的细粒度分类能力。我们的核心思想是利用无标签数据学习描述提示词,引导MLLMs识别图像中关键的判别特征,从而提升分类准确率。原创 2026-03-09 11:30:00 · 32 阅读 · 0 评论 -
2025_NIPS_Head Pursuit: Probing Attention Specialization in Multimodal Transformers
语言模型和视觉-语言模型已在各类任务中展现出令人印象深刻的性能,但其内部机制仍仅被部分理解。本文旨在研究文本生成模型中的单个注意力头如何专注于特定的语义或视觉属性。基于已有的可解释性方法,我们从信号处理的视角重新诠释了利用最终解码层探测中间激活状态的实践。这使我们能够以系统化的方式分析多个样本,并根据注意力头与目标概念的相关性对其进行排序。研究结果表明,在单模态和多模态Transformer中,注意力头层面存在一致的专业化模式。原创 2026-03-07 10:30:00 · 42 阅读 · 0 评论 -
2025_NIPS_TimeXL: Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop
时间序列分析为现实世界的系统动态提供关键洞察,并为下游决策提供支持,但大多数现有方法往往忽视了辅助模态中蕴含的丰富上下文信号。为填补这一空白,我们提出TimeXL,这是一种多模态预测框架,它将基于原型的时间序列编码器与三个协作的大型语言模型(LLM)相结合,以提供更准确的预测和可解释的解释。首先,基于多模态原型的编码器处理时间序列和文本输入,生成初步预测及案例式推理依据。这些输出随后输入到预测LLM中,该模型通过对编码器的预测和解释进行推理来优化预测结果。原创 2026-03-07 09:30:00 · 39 阅读 · 0 评论 -
2025_NIPS_LMFusion: Adapting Pretrained Language Models for Multimodal Generation
我们提出 LMFusion,一个为预训练纯文本大型语言模型(LLMs)赋予多模态生成能力的框架,使其能够理解和生成文本与图像的任意序列组合。LMFusion 利用现有 Llama-3 的权重自回归处理文本,同时引入额外的并行 Transformer 模块通过扩散模型处理图像。训练过程中,每种模态的数据被路由至其专用模块:模态专用前馈层、查询-键-值投影和归一化层独立处理各模态数据,而共享自注意力层支持文本与图像特征的跨模态交互。原创 2026-03-02 08:30:00 · 34 阅读 · 0 评论 -
2025_NIPS_Energy Landscape-Aware Vision Transformers: Layerwise Dynamics and Adaptive Task-Specific
视觉Transformer(ViT)近期在各类视觉任务中展现出卓越性能,但其一深层均匀的层结构引入了显著的计算开销。本研究通过能量基记忆系统的视角探索ViT层的涌现动力学,建立了自注意力与现代Hopfield网络之间的关联。我们提出一种新颖的指标——层不稳定性指数(LII),该指标源于操作型softmax模式及其变异性,用于量化每个Transformer层随时间变化的亚稳态。分析表明,部分层会持续收敛至类吸引子状态,体现出功能特化与早期稳定性特征。原创 2026-03-01 07:30:00 · 30 阅读 · 0 评论 -
2025_NIPS_ElasticMM: Efficient Multimodal LLMs Serving with Elastic Multimodal Parallelism
多模态大语言模型(MLLMs)通过整合特征提取器和投影模块,将大语言模型(LLMs)扩展至处理图像、视频和音频等多模态输入。然而,这些额外组件叠加复杂的推理流程和异构工作负载,导致推理开销显著增加。因此,高效部署 MLLMs 仍是一项重大挑战。现有紧密耦合的服务架构难以区分混合请求类型,也无法针对不同推理阶段调整并行策略,进而导致首 token 响应时间(TTFT)延长和资源利用率低下。原创 2026-02-26 09:30:00 · 36 阅读 · 0 评论 -
2025_NIPS_Meta CLIP 2: A Worldwide Scaling Recipe
首个无依赖全球训练方案:无需机器翻译、私有数据或蒸馏现有英文模型,直接基于原生多语言图文对从零训练,具备完全透明度和可复现性。语言专属数据筛选机制:通过元数据语言隔离、动态阈值计算,解决不同语言数据规模差异导致的概念分布失衡问题,保证长尾概念覆盖。打破多语言性能权衡:通过模型容量升级(ViT-H/14)和训练样本比例优化,证明多语言数据与英文数据可双向赋能,而非相互妥协。泛化性设计。原创 2026-02-19 11:30:00 · 40 阅读 · 0 评论 -
2025_NIPS_AC-LORA: (Almost) Training-Free Access Control-Aware Multi-Modal LLMs
企业大语言模型(LLM)在组织内部的高效知识传播与管理方面正获得广泛关注。然而,由于当前LLM易泄露敏感信息,在需要严格访问控制的场景中难以应用。为此,我们设计了AC-LORA——一款端到端的访问控制感知企业LLM聊天机器人系统,具备强大的信息隔离保障。AC-LORA为授权数据集维护独立的LoRA适配器及其微调所基于的文档嵌入。系统根据用户查询的相似度分数与权限检索精准的LoRA适配器集合,若检索到多个LoRA,则利用该相似度分数融合响应,无需为LoRA路由进行额外训练。原创 2026-02-18 07:30:00 · 36 阅读 · 0 评论 -
2025_NIPS_Quantifying Cross-Modality Memorization in Vision-Language Models
理解神经网络在训练过程中记忆什么、如何记忆至关重要——这既关系到潜在敏感信息的无意记忆问题,也影响模型为现实世界中知识密集型任务有效获取知识的能力。尽管以往研究主要探讨单模态内的记忆现象(如大型语言模型中的文本记忆或扩散模型中的图像记忆),但统一的多模态模型在实际应用中日益普及。本文聚焦跨模态记忆的独特特性,以视觉-语言模型为核心开展系统性研究。为实现受控实验,我们首先构建了一个合成角色画像数据集,包含多样化的合成人物图像和文本描述。原创 2026-02-17 11:30:00 · 224 阅读 · 0 评论 -
2025_NIPS_Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models
该研究聚焦多模态大语言模型(MLLMs)在退化文档理解中的OCR幻觉问题,核心是解决模型在模糊、遮挡、低对比度等视觉退化场景下,因过度依赖语言先验或跨模态推理错位导致的虚假内容生成问题。问题提出:现有MLLMs在高质量文档处理中表现接近人类,但在真实场景的视觉退化条件下,存在OCR幻觉缺陷,根源在于预训练缺乏退化场景数据、指令微调忽视退化处理范式、评估缺乏专用基准三大挑战。核心贡献。原创 2026-02-16 12:30:00 · 50 阅读 · 0 评论 -
2025_NIPS_SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models
实现视频中的细粒度时空理解仍是当前视频大型多模态模型(Video LMMs)面临的主要挑战。应对这一挑战需要掌握两项核心能力:视频指代理解(捕捉视频区域的语义信息)和视频视觉接地(基于自然语言描述分割目标区域)。然而,大多数现有方法孤立处理这些任务,限制了面向统一化、指代接地式视频交互的发展。本文指出,关键瓶颈在于缺乏高质量的统一视频指令数据,以及用于评估指代接地式视频对话的综合基准。为解决这些问题,我们从三个核心方面做出贡献:数据集、模型和基准测试。原创 2026-02-15 10:30:00 · 33 阅读 · 0 评论 -
2025_NIPS-Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimo
验证码(CAPTCHA)已成为Web智能体在实际应用中部署的关键瓶颈,常阻碍其完成端到端自动化任务。尽管现代多模态大语言模型(MLLM)智能体在静态感知任务中展现出令人印象深刻的性能,但它们处理验证码这类交互式、多步骤推理挑战的能力仍未得到充分验证。为填补这一空白,我们提出Open CaptchaWorld——首个基于Web的基准测试平台,专门设计用于通过多样化、动态的验证码谜题,评估MLLM驱动智能体的视觉推理与交互能力。原创 2026-02-13 13:30:00 · 31 阅读 · 0 评论 -
2025_NIPS_MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios
多模态大语言模型(MLLMs)在静态图像的光学字符识别(OCR)任务中已实现相当高的准确率。然而,由于视频内容固有的运动模糊、时间变化和视觉效果等因素,它们在视频OCR任务中的效能显著下降。为给实用型MLLMs的训练提供更清晰的指导,我们提出MME-VideoOCR基准,该基准涵盖了广泛的视频OCR应用场景。MME-VideoOCR包含10个任务类别、25个具体任务,跨越44种不同场景。这些任务不仅限于文本识别,还包括对视频中文本内容的深度理解与推理。原创 2026-02-09 11:30:00 · 50 阅读 · 0 评论 -
2025_NIPS_Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment
尽管对比语言-图像预训练(CLIP)在跨模态内容检索方面表现出卓越能力,但其特征空间中仍存在显著的模态间隙。有趣的是,我们发现现成的多模态大语言模型(MLLMs)展现出强大的固有模态对齐特性。近年来,基于MLLM的统一架构检索模型虽部分缓解了这一间隙,但它们对粗粒度模态对齐机制的依赖从根本上限制了其潜力。本文中,我们提出MAPLE(嵌入的模态对齐偏好学习),这是一种新型框架,利用MLLM中固有的细粒度对齐先验知识指导跨模态表示学习。原创 2026-02-06 09:15:00 · 44 阅读 · 0 评论 -
2025_NIPS_Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
多模态大语言模型(MLLMs)的最新进展显著提升了2D视觉理解能力,激发了其在复杂3D推理任务中的应用兴趣。然而,这些模型能否有效捕捉稳健的真实场景性能所需的精细空间信息(尤其是准确3D推理的关键要求——跨视角一致性)仍不明确。针对这一问题,我们提出视角学习(Viewpoint Learning)任务,用于评估和提升MLLMs的空间推理能力。我们构建了Viewpoint-100K数据集,包含10万组具有多样视角的物体中心图像对及对应的问答对。原创 2026-02-06 10:30:00 · 140 阅读 · 0 评论 -
2025_NIPS_ı˙Finder: Structured Zero-Shot Vision-Based LLM Grounding for Dash-Cam Video Reasoning
将大型语言模型(LLM)应用于行车记录仪视频事后分析等特定领域任务面临挑战,这源于其通用目的训练特性以及缺乏结构化归纳偏置。由于此类分析通常仅能依赖视觉模态(即无激光雷达、全球定位系统等辅助传感器),现有基于视频的视觉语言模型(V-VLM)在输入视频的空间推理、因果推断和事件可解释性方面存在不足。为此,我们提出˙ıFinder,一种结构化语义接地框架,通过将行车记录仪视频转换为层级化、可解释的数据结构供LLM使用,实现感知与推理的解耦。原创 2026-01-31 07:30:00 · 42 阅读 · 0 评论 -
Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
本文提出了一种名为的大型语言-视觉-语音模型,旨在实现高效、灵活的多模态对齐,支持文本、视觉、语音多种模态组合的交互。针对视觉与文本的语义互补性,采用序列维度拼接(sequence-dimension concatenation)实现视觉-文本对齐;针对语音与文本的语义一致性,引入基于CTC(Connectionist Temporal Classification)的层维度映射(layer-dimension mapping)实现语音-文本对齐。原创 2026-02-01 10:30:00 · 39 阅读 · 0 评论 -
SafePTR : Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism
本文聚焦多模态大语言模型(MLLMs)的安全问题,针对其易受多模态越狱攻击的 vulnerabilities,提出了一种名为SafePTR的防御框架。现有防御方法(如图文转换、安全提示词、多模态安全微调)存在缺陷:易受文本驱动的越狱攻击、过度防御导致效用下降、训练开销大且泛化能力弱。通过分析,作者发现MLLMs中仅早期-中期层中不到1%的有害token会引发不安全行为,这些token通过语义偏移(偏离安全对齐表示)绕过安全机制。原创 2026-01-28 13:30:00 · 139 阅读 · 0 评论 -
2025_NIPS_SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs
多模态大语言模型(MLLMs)通常需要处理大量视觉令牌,导致显著的计算开销,尽管其中许多令牌是冗余的。现有视觉令牌剪枝方法主要基于注意力分数选择最显著的令牌,导致所选令牌存在语义完整性缺失问题。本文提出一种新颖的视觉令牌剪枝策略——SCOPE(面向高效MLLMs的显著性-覆盖度导向令牌剪枝),通过联合建模所选视觉令牌的显著性和覆盖度,更好地保留语义完整性。具体而言,我们为给定的选定令牌集引入集合覆盖度(基于令牌间关系计算),并为每个未选定令牌定义令牌覆盖增益,量化其加入后可获得的额外覆盖度。原创 2026-01-23 13:30:00 · 191 阅读 · 0 评论 -
Watching, Reasoning and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Rea
在现实世界的视频问答场景中,视频通常仅提供局部视觉线索,而可验证的答案分布在开放网络中;因此,模型需要联合执行跨帧线索提取、迭代检索和基于多跳推理的验证。为填补这一空白,我们构建了首个视频深度研究基准VideoDR。VideoDR聚焦于视频条件下的开放域视频问答,要求模型完成跨帧视觉锚点提取、交互式网络检索,以及基于视频-网络联合证据的多跳推理;通过严格的人工标注和质量控制,我们获得了涵盖六个语义领域的高质量视频深度研究样本。原创 2026-01-24 10:30:00 · 42 阅读 · 0 评论 -
LTX-2: Efficient Joint Audio-Visual Foundation Model
高效非对称双流架构:采用差异化参数分配的双流Transformer,通过双向交叉注意力与跨模态AdaLN实现音视频联合生成,在保证视频质量的同时避免音频流过度参数化。含“思考令牌”的文本处理模块:融合多层特征提取器与双向Transformer块,通过“思考令牌”聚合上下文信息,提升语音音准与复杂提示词理解能力。紧凑神经音频表示:设计高效因果音频VAE,支持立体声信号处理,生成适配扩散模型训练的1D latent空间,兼顾保真度与计算效率。模态感知无分类器引导。原创 2026-01-24 10:30:00 · 72 阅读 · 0 评论
分享