LLM MultiModal
文章平均质量分 88
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Awaking Spatial Intelligence in Unified Multimodal Understanding and Generation
本文提出,一款面向视觉理解、文生图与指令引导图像编辑的统一多模态基础模型。JoyAI-Image将空间增强的多模态大语言模型(MLLM)与多模态扩散Transformer(MMDiT)相结合,使感知与生成通过共享多模态接口实现交互。围绕该架构,我们构建了可扩展的训练方案,融合统一指令微调、长文本渲染监督、空间对齐数据,以及通用与空间编辑信号。该设计赋予模型广泛的多模态能力,同时强化几何感知推理与可控视觉合成。原创 2026-06-03 07:30:00 · 24 阅读 · 0 评论 -
2025_NIPS_Training Transitive and Commutative Multimodal Transformers with LoReTTa
多模态基础模型的训练具有挑战性,原因在于多模态数据集的可获取性有限。尽管许多公开数据集将图像与文本配对,但很少有数据集能将图像与音频或文本与音频结合,而同时对齐三种模态的数据集则更为罕见。医疗、基础设施或交通等关键领域尤其受模态缺失问题的影响,这使得难以将所有模态整合到一个大型预训练神经网络中,该网络本应能直接使用或针对不同下游任务进行微调。为此,我们提出了LoReTTa(一种利用传递性和交换性预训练策略链接模态的方法),以解决这一研究不足的问题。原创 2026-05-29 09:30:00 · 81 阅读 · 0 评论 -
LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
本文提出LLaDA2.0-Uni,一种统一离散扩散大语言模型(dLLM),在原生一体化框架中同时支持多模态理解与生成任务。模型架构融合全语义离散分词器、基于混合专家(MoE)的dLLM主干与扩散解码器。通过SigLIP‑VQ将连续视觉输入离散化,主干对文本与视觉输入统一执行块级掩码扩散建模,解码器将视觉token重建为高保真图像。除并行解码外,模型通过主干前缀感知优化与解码器少步蒸馏进一步提升推理效率。原创 2026-05-10 07:30:00 · 175 阅读 · 0 评论 -
2025_NIPS_OpenHOI: Open-World Hand-Object Interaction Synthesis with Multimodal Large Language Model
理解并合成真实的3D手-物交互(HOI)对于从沉浸式增强现实/虚拟现实(AR/VR)到灵巧机器人等应用至关重要。现有方法在泛化性方面存在局限——在闭集物体和预定义任务上表现良好,但无法处理未见物体或开放词汇指令。本文提出OpenHOI,首个面向开放世界的HOI合成框架,能够在自由形式语言指令的引导下,为新颖物体生成长时程操作序列。原创 2026-04-28 07:30:00 · 340 阅读 · 0 评论 -
2025_NIPS_Can Multi-Modal LLMs Provide Live Step-by-Step Task Guidance?
多模态大型语言模型(Multi-modal LLM)已具备先进的对话能力,但在提供实时、交互式分步指导方面仍存在不足——这是未来AI助手的关键能力之一。有效的指导不仅需要传递指令,还需检测指令的成功执行情况,识别并提醒用户的错误,且所有这些都必须实时完成。这要求模型不再是基于回合制,而是能够异步响应视频流,同时需要包含用户执行任务(包括错误及修正过程)的视频数据。原创 2026-04-07 11:30:00 · 107 阅读 · 0 评论 -
2025_NIPS_Scientists’ First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding,
本文来自上海人工智能实验室PrismaX团队,针对现有科学领域多模态大语言模型(MLLMs)基准测试仅侧重知识理解、忽视感知与推理能力评估的缺陷,提出了Scientists’ First Exam(SFE)基准测试。该基准旨在从三个认知层面全面评估MLLMs的科学认知能力:科学信号感知(L1,识别科学原始数据可视化中的关键组件)、科学属性理解(L2,解读领域专家知识)、科学比较推理(L3,通过多科学视觉源的结构化比较推导现象洞察)。SFE涵盖5个高价值学科(天文学、化学、地球科学、生命科学、材料科学)、原创 2026-04-02 07:30:00 · 26 阅读 · 0 评论
分享