华科&华为发布首款基于国产芯片适配的多模态大模型“PDF悟空”，解析长文档多模态数据能力 SOTA...-CSDN博客

关注公众号，发现CV技术之美

2024年10月，华中科技大学白翔团队与华为研究人员合作，推出了基于国产芯片的多模态文档大模型PDF-WuKong。

这一创新成果针对复杂多页PDF文档问答场景，提出了两项关键技术：端到端稀疏采样机制和多页PDF问答高质量数据生成方法。这些技术突破使得输入长度有限的多模态大模型能够有效处理理论上无限长的PDF文档，实现深度理解和精准问答。

PDF-WuKong不仅解决了现有多模态大模型难以处理长PDF文档的技术难题，其性能还超越了多个知名的国际闭源商业产品，该成果展示了国产芯片在支持复杂大模型应用方面的实力。

论文链接：https://arxiv.org/abs/2410.05970
代码地址：https://github.com/yh-hust/PDF-Wukong

研究背景

在大模型技术快速发展的今天，处理复杂的多页PDF文档仍然是一个重大挑战。学术文献、技术报告等长篇PDF文档通常包含文本、图表、公式等多模态内容，这种复杂性使得现有的AI模型难以全面理解和处理。

目前，处理多页PDF文档主要有两种主流技术路线：纯语言模态和纯视觉模态。纯语言模态方法将PDF文档中的所有信息转换为文本，然后使用长文本技术（如位置编码外推或稀疏注意力机制）或检索增强生成（如Self-RAG）技术进行处理。这种方法虽然可以应对长文档，但难以充分理解文档中的视觉元素。

另一方面，纯视觉模态方法擅长处理文档中的图像和视觉布局，但在面对长文档时计算成本极高（特别是对于高分辨率的文档图片），且难以有效捕捉页面间的上下文关系。

事实上，长篇文档中大量的冗余信息不仅增加模型推理的成本，也会使模型对于文档的理解带来干扰。为了解决这些问题，PDF-WuKong引入了稀疏采样器，通过对文档中最相关的文本段落或图表进行稀疏采样，显著减少输入的冗余信息。

然而，要实现这一目标，仍然面临一个核心问题：缺乏用于有效训练和评估多模态模型处理长文档能力的数据集。

为此，文章提出了一种高质量PDF文档问答数据的生成方法，并基于此方法构建并开源了全新数据集PaperPDF，专门用于模型训练和长文档理解能力的评估。

方法思路简述

为了实现对长篇PDF文档的多模态理解，并克服现有模型仅将PDF文档视为纯文本或图像单一模态的局限性，作者提出了PDF-WuKong。其核心动机在于，用户的查询通常只涉及文档中的少量文本块或图表。

因此，为了提升多模态大模型（MLLM）的准确性和效率，文章设计了一种稀疏采样器，并将其与多模态大模型进行了端到端的集成。

PDF-WuKong的核心结构包括三个主要部分：文档解析，稀疏采样和答案生成。

文档解析：文档解析任务旨在将PDF文档解析成符合人类阅读顺序、包含文本块和图像块的结构化内容。
稀疏采样：稀疏采样通过计算用户查询与文档各部分的相似度，从缓存的嵌入中选择与查询最相关的文本段落和图像块，并传递给后续的模型部分。
答案生成：将筛选出的关键信息联合问题和指令送入大模型，并且生成准确的答案。

在训练过程中，稀疏采样器和大语言模型可以通过端到端方式进行联合优化。稀疏采样器不仅提高了长文档的处理效率，还提升了模型的解释性。

高质量多页文档问答对数据生成方法

在长篇PDF文档的问答场景中，问题的答案通常只涉及文档的一部分内容。这种情况下，模型需要具备识别并提取相关内容的能力，以提高推理的准确性。

然而，现有的文档问答数据集大多局限于单页文档或单一证据的问题，无法支持多页文档的处理，且缺乏复杂的多证据推理场景。这些局限使得训练像稀疏采样器这样的技术变得困难。

为了解决这一问题，作者提出了一种可靠的长文档高质量问答对生成方法，并基于此方法构建了PaperPDF数据集，用于模型的训练和评估。数据生成的过程大体分为文档解析、规则抽取、指令构建以及后续的数据过滤。

文档解析：使用开源工具Grobid对从arXiv等来源获取了大约89,000篇PDF学术论文进行解析，将其拆分为多个文本块（如段落）和图像块（如图表）
规则抽取：使用预定义的规则随机选择部分解析出的文本块和图像块
指令构建：根据不同类型问答数据相应的提示模板构建生成提示送入现有的多模态大模型产品（如Gemini、GPT4v）产生相应的问题和答案
数据过滤：使用一系列自动化规则过滤生成的训练集，例如去除问题过短、答案过长或非英文的样本；人工检查生成的测试集确保评估的准确性。

最终构建了一个包含两种单证据类型和三种多证据类型的100万条训练样本和6,000条测试样本的PaperPDF数据集，专门用于训练和评估模型在长篇、多模态文档上的问答能力，其统计量如下所示。

实验结果

作者进行了在长文档理解任务和面向单、多页文档VQA任务上测试了他们的方法。

长PDF理解任务

作者在提出的PaperPDF上测试了他们的方法。实验结果表明得益于稀疏采样器的引入，PDF-WuKong显著减少了处理的冗余信息，在多个评估指标上均优于其他开源模型和主流的商业PDF问答产品。

面向文档的VQA任务

作者同时也在多个面向文档VQA任务上进行了测试。结果表明，PDF-WuKong不仅能在单页文档上表现出色，还能在多页文档场景中展示出极高的准确性和效率。

更重要的是，PDF-WuKong在最近的另外一个多模态长文档benchmark MM-NIAH上表现优异，尤其是对于64K的上下文长度，PDF-WuKong实现了最佳的性能，这展现出了它对长文档的鲁棒性。

文档长度对模型性能的影响

实验表明，PDF-WuKong的性能和时间效率在不同长度的文档中保持相对稳定。这是因为，无论原始文档的长度如何，稀疏采样器能有效地将输入大小减小到合理的水平。

可视化对比

作者也提供了一些与现阶段主流的PDF问答商业产品的可视化对比。可以看出PDF-WuKong准确的找到了PDF文档中的依据，并正确回答了提出的问题。而其他商业产品的回答都有一定的错误。

总结与展望

PDF-WuKong是首个基于国产化芯片的多模态长文档大模型，开创性地为输入窗口长度受限的多模态大模型理解和处理包含大量文本和图像信息的长篇PDF文档提供了高效解决方案。此外，文章还提出了一套高质量的长文档问答对的生成方法，并开源了相应的数据集PaperPDF，为后续在长文档理解和多模态检索领域的研究和应用探索提供了有力的支持。

目前，PDF-WuKong主要聚焦于单文档、单轮对话的局部问题回答，即针对文档中的局部内容进行精确的理解和响应。对于全局性的问题，如总结整篇文档的核心思想或分析文档的整体结构，模型的能力还有待提升。此外，在跨文档问答和多轮对话方面，模型尚未充分支持，无法有效处理涉及多个文档的信息整合和连续的对话交互。

未来的工作将重点从以下几个方向提升模型性能：首先，从引入全局语义表示的角度，利用图神经网络等技术增强模型对文档整体结构和主题的理解，提升全局信息捕捉能力。其次，通过引入跨文档的信息检索和融合机制，促进模型对多文档之间关联信息的理解，实现更准确的跨文档问答。

最后，探索在多轮对话中保持上下文连贯性的技术，例如引入对话记忆机制和上下文增强方法，增强模型对用户连续意图的理解，更好地适应复杂的交互场景。通过这些具体的改进措施，PDF-WuKong有望在处理更复杂的应用场景中发挥重要作用，充分展现其在长文档多模态数据解析领域的潜力。

最新 AI 进展报道
请联系：amos@52cv.net