【AI论文】MMDocIR:长文档多模态检索的基准测试

摘要:多模态文档检索旨在识别并检索各种形式的多模态内容,如广泛文档中的图表、表格、图示和布局信息。尽管其意义重大,但目前缺乏一个稳健的基准来有效评估多模态文档检索系统的性能。为填补这一空白,本研究引入了一个新的基准,名为MMDocIR,包含两个不同任务:页面级检索和布局级检索。前者侧重于在长文档中定位最相关的页面,而后者则旨在检测特定的布局,提供了比整页分析更细粒度的视角。布局可以指代多种元素,如文本段落、方程式、图表、表格或图示。MMDocIR基准包含一个丰富的数据集,为1,685个问题提供了专家标注的标签,并为173,843个问题提供了自举标注的标签,使其成为推动多模态文档检索训练和评估的关键资源。通过严谨的实验,我们揭示了以下发现:(i)视觉检索器显著优于其文本对应物,(ii)MMDocIR训练集能有效促进多模态文档检索的训练过程,以及(iii)利用视觉-语言模型(VLM)文本信息的文本检索器表现远优于使用光学字符识别(OCR)文本的检索器。这些发现强调了整合视觉元素对于多模态文档检索的潜在优势。Huggingface链接:Paper page ,论文链接:2501.08828

一、引言与背景

  1. 多模态文档检索的重要性
    • 多模态文档检索旨在从视觉丰富的文档中识别并检索各种形式的多模态内容,如图表、表格、图示和布局信息。这种检索方式能够提供更全面、更深入的文档理解,对于学术、金融、法律等多个领域具有重要意义。
    • 随着数字文档的普及和增长,如何高效地检索和处理这些包含多种模态信息的文档成为了一个亟待解决的问题。
  2. 现有基准的不足
    • 尽管多模态文档检索的重要性不言而喻,但目前缺乏一个稳健的基准来有效评估多模态文档检索系统的性能。现有基准在问题质量、文档质量和检索粒度等方面存在明显不足。
    • 例如,许多基准中的问题设计并未专门针对多模态文档检索的需求,而是从视觉问答(VQA)任务中复用,缺乏针对性;同时,文档的完整性也往往不足,限制了评估的准确性。
  3. MMDocIR基准的提出
    • 为填补这一空白,本研究引入了MMDocIR基准,旨在通过提供一个全面、高质量的数据集来推动多模态文档检索领域的发展。
    • MMDocIR基准包含两个不同任务:页面级检索和布局级检索,分别关注于定位最相关的页面和检测特定的布局元素。

二、MMDocIR基准概述

  1. 数据集构成
    • MMDocIR基准数据集由313篇长文档组成,平均每篇文档包含65.1页,涵盖了学术论文、财务报告、政府文件、法律文件等多个领域。
    • 数据集共包含1,685个问题,每个问题都经过专家标注,提供了页面级和布局级的标签。此外,还通过自举方法标注了173,843个问题的标签,进一步丰富了数据集。
  2. 页面级检索任务
    • 页面级检索任务的目标是在长文档中定位与查询最相关的页面。这对于用户快速获取所需信息至关重要。
    • 在MMDocIR基准中,页面级检索任务通过提供页面级的标签来实现,这些标签指示了包含查询答案证据的页面。
  3. 布局级检索任务
    • 布局级检索任务则更进一步,旨在检测页面中的特定布局元素,如文本段落、图表、表格等。
    • MMDocIR基准为布局级检索任务提供了布局级的标签,这些标签通过精确绘制布局元素的边界框来定义。

三、MMDocIR基准的构建过程

  1. 文档语料库收集
    • 为构建MMDocIR基准,研究团队从现有的文档视觉问答(DocVQA)基准中选取了合适的文档语料库。这些语料库必须包含可访问的原始文档或文档来源,并涵盖多个领域和多种模态。
    • 经过筛选,研究团队最终选择了MMLongBench-Doc和DocBench两个基准中的文档语料库,共包含364篇文档和2,193个问题。
  2. 问题过滤与修订
    • 为确保MMDocIR基准中的问题与多模态文档检索任务高度相关,研究团队对收集到的问题进行了过滤和修订。
    • 具体而言,团队排除了需要全面理解大段文档或外部资源的总结性问题、统计性问题、在线搜索问题和无法回答的问题。
  3. 页面级与布局级标注
    • 对于页面级标注,研究团队仔细检查了每篇文档,为每个问题分配了包含答案证据的页面标签。对于MMLongBench-Doc中的问题,团队还修正了部分错误的答案和页面标签。
    • 对于布局级标注,团队首先使用MinerU工具解析文档并提取布局信息,然后手动绘制了包含答案证据的布局元素的边界框。在MinerU无法准确检测某些布局元素的情况下,团队进行了手动干预。
  4. 质量控制
    • 为确保标注质量,研究团队采用了交叉验证方法。具体而言,团队将文档语料库分为两组,每组负责标注约1,000个问题的页面级和布局级标签。两组之间存在400个重叠问题,用于相互验证标注结果。
    • 通过交叉验证,团队实现了较高的标注一致性,页面级标注的F1分数达到95.2%,布局级标注的F1分数达到87.1%。

四、MMDocIR基准的统计与分析

  1. 文档分析
    • MMDocIR基准中的文档平均包含65.1页,涵盖了学术论文、财务报告、政府文件、法律文件等十个主要领域。不同领域的文档在模态分布上存在显著差异,例如学术论文和教程文档主要包含图像,而财务报告和行业文档则富含表格。
    • 总体而言,文档中的模态分布为:文本(60.4%)、图像(18.8%)、表格(16.7%)和其他模态(4.1%)。
  2. 问题与标注分析
    • MMDocIR基准共包含1,685个问题,这些问题需要利用文本、图像、表格和布局/元数据等多种模态来回答。
    • 数据集中的问题具有多种挑战性,包括需要跨模态理解的问题(254个)、需要跨页面证据的问题(313个)和需要基于多个布局推理的问题(637个)。

五、MMDocIR训练集

  1. 文档语料库收集
    • 为构建MMDocIR训练集,研究团队从多个DocVQA基准中收集了文档语料库。这些语料库遵循了与MMDocIR评价集相同的选择标准,确保了文档的质量和多样性。
    • 最终,团队收集了来自MP-DocVQA、SlideVQA、TAT-DQA、ArXivQA、SciQAG、DUDE和CUAD等基准的文档语料库,共包含6,878篇文档和73,843个问题。
  2. 标签构建
    • 对于MP-DocVQA、SlideVQA和DUDE等基准中的文档,团队直接转换了它们提供的页面标签。对于SciQAG基准中的文档,团队则通过反向推理的方法获取了页面级和布局级标签。
    • 对于ArXivQA和TAT-DQA基准中的文档,团队首先使用MinerU工具提取布局信息,然后通过相似度计算和手动检查的方法为问题分配了页面级和布局级标签。

六、模型训练与实验

  1. 模型选择
    • 为评估MMDocIR基准的有效性,研究团队选择了六种最先进的文本检索器和五种基于视觉-语言模型(VLM)的检索器进行实验。这些检索器涵盖了从稀疏检索到密集检索的多种方法。
  2. 实验结果
    • 实验结果显示,视觉检索器在页面级和布局级检索任务中均显著优于文本检索器。这证明了整合视觉元素对于提高多模态文档检索性能的重要性。
    • 此外,利用MMDocIR训练集训练的视觉检索器(如DPR-Phi3ours和Col-Phi3ours)在检索性能上取得了显著提升。这表明MMDocIR训练集能够有效促进多模态文档检索的训练过程。
    • 值得注意的是,利用视觉-语言模型(VLM)文本信息的文本检索器表现也远优于使用光学字符识别(OCR)文本的检索器。这进一步强调了VLM在多模态文档检索中的潜力。

七、相关工作与对比

  1. 文本为中心的文档检索
    • 传统的文本检索方法主要依赖于文本数据的处理和分析,如TF-IDF、BM25等稀疏检索方法和DPR、ColBERT等密集检索方法。这些方法在处理多模态文档时存在明显局限,无法充分利用文档中的视觉信息。
  2. 视觉驱动的文档检索
    • 随着视觉-语言模型(VLM)的发展,视觉驱动的文档检索方法逐渐兴起。这些方法通过直接编码文档页面截图来捕捉多模态信息,显著提高了检索性能。然而,它们在高分辨率文档页面的处理上仍面临挑战。
  3. 多模态文档检索数据集
    • 现有的多模态文档检索数据集在规模、质量和多样性等方面存在不足。例如,DocCVQA数据集仅包含20个问题且仅限于金融领域;PDF-MVQA数据集虽然涵盖了多个领域但标注质量不高。相比之下,MMDocIR基准在规模、质量和多样性方面均表现出色。

八、结论与展望

  1. 研究结论
    • 本研究通过引入MMDocIR基准,为长文档多模态检索领域提供了一个全面、高质量的数据集。实验结果证明了视觉元素在多模态文档检索中的重要性,并展示了MMDocIR基准在训练和评估多模态文档检索系统方面的有效性。
  2. 未来展望
    • 未来工作可以进一步优化多模态文档检索算法,提高检索的准确性和效率。同时,随着视觉-语言模型(VLM)的不断发展,我们可以期待它们在多模态文档检索中发挥更大的作用。此外,将MMDocIR基准扩展到更多领域和更复杂的场景也将是一个有价值的研究方向。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值