【多模态】
IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model
论文链接:https://arxiv.org/pdf/2407.07577
代码链接:https://github.com/jiyt17/IDA-VLM
大规模视觉-语言模型(LVLMs)的快速发展展示出一系列新兴的能力。然而,当前的模型仅关注单个场景的视觉内容,而它们在关联不同场景中的实例能力尚未被探索
,而这对于理解复杂的视觉内容,例如拥有多个角色和错综复杂情节的电影至关重要。为了实现对电影的理解,LVLMs的关键首要步骤是释放跨多个视觉场景的角色身份记忆和识别的潜力。为了实现这一目标,作者提出了带有ID参考的视觉指导调整,并开发了一种ID感知的大规模视觉-语言模型,IDA-VLM。此外,还引入了一个新颖的基准MM-ID,以在四个维度上检查LVLMs在实例ID记忆和识别方面的表现:匹配、定位、问答和字幕。研究结果突出了现有LVLMs在识别和关联实例身份方面存在的局限性。这篇论文为未来人工智能系统具有多身份视觉输入铺平了道路,从而促进对电影等复杂视觉叙事的理解。
[2024] VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents
机构:清华、面壁智能
论文链接:https://arxiv.org/pdf/2410.10594v1
代码链接:https://github.com/openbmb/visrag
语言模型(LLMs)利用外部知识源进行生成。然而,当前的RAG系统仅基于文本,使得无法利用布局和在现实世界中起着关键作用的图像等视觉信息,这些信息在多模态文档中具有重要作用
。本文介绍了VisRAG,通过建立基于**视觉-语言模型(VLM)**的RAG流水线来解决这个问题。在这个流水线中,直接将文档使用VLM作为图像进行嵌入,而不是首先解析文档以获取文本,然后检索以增强VLM的生成。相比传统基于文本的RAG,VisRAG最大限度地保留和利用了原始文档中的数据信息,消除了解析过程中引入的信息丢失。作者收集了开源和合成数据来训练VisRAG中的检索器,并探索了各种生成方法。实验结果表明,VisRAG在检索和生成阶段均优于传统的RAG,在传统基于文本的RAG流水线上实现了25-39%的端到端性能提升。进一步的分析揭示了VisRAG在利用训练数据方面的有效性,并展示了强大的泛化能力,使其成为多模态文档上RAG的解决方案。
【Transformer】
[2024] MoH: Multi-Head Attention as Mixture-of-Head Attention
论文链接:https://arxiv.org/pdf/2410.11842v1
代码链接:https://github.com/SkyworkAI/MoH
这项工作升级了Transformer模型的核心——多头注意力机制,以在保持或超越之前的准确性水平的同时提高效率。作者展示了多头注意力可以用求和形式表示。借鉴不是所有注意力头都具有同等重要性这一洞见,提出了混合头部注意力(MoH),这是一种将注意力头视为专家机制(MoE)中的专家的新架构。MoH具有两个显著优势:首先,MoH使每个token能够选择适当的注意力头,提高了推理效率,同时不牺牲准确性或增加参数数量。其次,MoH用加权求和替换了多头注意力中的标准求和,为注意力机制引入了灵活性,并释放了额外的性能潜力。对ViT、DiT和LLMs的广泛实验表明,MoH在使用仅50%至90%的注意力头的情况下,性能超过了多头注意力。此外,作者证明了预训练的多头注意力模型,如LLaMA3-8B,可以进一步继续调整为MoH模型。值得注意的是,MoH-LLaMA3-8B在14个基准测试中的平均准确率达到64.0%,通过仅使用75%的注意力头就比LLaMA3-8B提高了2.4%。MoH是多头注意力的一个有前景的替代方案,并为开发先进且高效的注意力基础模型提供了坚实的基础。