RAG 实战-PDF解析

最新推荐文章于 2024-08-27 14:10:44 发布

dh2016

最新推荐文章于 2024-08-27 14:10:44 发布

阅读量510

点赞数 7

文章标签： pdf 人工智能

本文链接：https://blog.csdn.net/dh2016/article/details/140744208

版权

在RAG智能问答项目中，最基础也是最重要的事情是文档解析，文档解析的好，才能更好的按照语义进行chunk，从而更好的进行向量匹配和内容召回。

由于PDF的格式和板式非常复杂多变，尤其是PPT转的PDF，情况更加复杂。下面说下PDF的处理步骤。

第一步：PDF字符串提取

利用PDF内容提取工具pdfplumber 提取出pdf字符

第一步：进行OCR内容提取

对每页的内容进行ocr提取，推荐使用paddleocr 效果不错。

提取出文字块，效果如下图：

在这里插入图片描述

第三步：板式识别

利用目标识别模型进行识别，我用的yolov8，数据集大概5000张，训练300轮即可。

在这里插入图片描述
识别的类别包括：

文本
标题
配图
配图标题
表格
表格标题
页头
页尾
参考引用
公式

第四步：获取板式识别框里面的内容

把前面获取的坐标区域和坐标内的文字，和板式区域坐标对比，如果在这个板式区域内，说明是属于这个板式。最后把相同板式编号的内容聚合在一起。就获取到这个板式区域内的所有内容。

关于PPT 版本的PDF

如果想做的更好，建议使用多模态大模型进行处理，推荐使用qwen-vl系列。

我的创业项目-破浪问答上线了，欢迎合作交流。

都说RAG demo三天，做好半年，果然不假，因为我真的做了半年。

做不起来，就开源hhh

破浪问答官网

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dh2016

关注关注

7
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

【AI大模型应用开发】【LangChain系列】实战案例4：再战RAG问答，提取在线网页数据，并返回生成答案的来源

同学小张的博客

03-12

2924

本文利用 LangChain 实现了一个完整的问答RAG应用。其中RAG中的数据源采用加载网页数据的形式获取，而不是采用之前实践中传统的本地知识库（加载本地PDF文件）的方式。然后我们还在RAG的返回中增加了参考文本的输出，这是之前我们没有实践过的，算是一点新知识。在实现这个功能的过程中，最主要的是学会使用 LangChain 中提供的 `RunnablePassthrough` 和 `RunnableParallel` 进行值的传递。

【文档智能 & RAG】RAG新基建-RAG性能增强关键技术点及通用文档解析工具-TextIn

余俊晖，NLP炼丹师，目前专注自然语言处理领域研究。曾获得国内外自然语言处理算法竞赛TOP奖项近二十项。

07-19

1472

在私有领域知识问答和企业知识管理领域，结合检索增强型生成模型（Retrieval-Augmented Generation, RAG）大模型（Large Language Model, LLM）已成为一种趋势。然而，在RAG系统的文档预处理阶段和检索阶段，经常碰到三个主要问题。企业内部常常积累了大量包含PDF格式的文档，这些文档的解析精度不足，严重制约了基于专业知识的问答系统的性能。因此，提高这些PDF文件的解析质量，对于构建高效的RAG系统至关重要。构建起一个完备的智能文档解析服务后，需要一个。

参与评论您还未登录，请先登录后发表或查看评论

LLM之RAG实战（二十九）| 探索RAG PDF解析

wshzd的博客

03-13

2803

换句话说，它将文档的每一行都视为一个由换行符“\n”分隔的序列，这会妨碍段落或表格的准确识别。解析PDF文档的挑战在于准确提取整个页面的布局，并将包括表格、标题、段落和图像在内的内容翻译成文档的文本表示。例如，如果用户想知道图9中2.1节的主要内容，通过准确提取2.1节的标题，并将其与相关内容一起作为上下文发送给LLM，最终答案的准确性将显著提高。否则，它将被视为右列的一部分。对于RAG来说，从文档中提取信息是一种不可避免的场景，确保从源文件中提取出有效的内容对于提高最终输出的质量至关重要。

RAG中pdf解析的方法全览

最新发布

qq_29837229的博客

08-27

709

是一个基于深度学习的文档图像分析工具包，它提供了布局检测、OCR识别、布局分析等接口，适用于处理和分析扫描文档或图像中的文字。该代码从pdf中结构出各个标题层级的关系，又在word中重建该结构。首先，将pdf的每一页转为图像，以便对其执行OCR来提取文本块。3.带OCR的扫描文档。可能转OCR的过程中带入了错误。1.机器生成的pdf文件，包含图像，文本，可以被编辑。2.传统扫描文档，表现为图像，不能被编辑。解析pdf论文的话，使用特定模型。

高级RAG：揭秘PDF解析

安静的软件工程师

02-24

2699

高级RAG：揭秘PDF解析

RAG 系列：PDF 文件的解析

m0_59164520的博客

07-22

764

本文重要介绍了文本 PDF 和扫描 PDF 的解析，了解到了 PDF 文件解析的复杂性。要想 RAG（检索增强生成）后面的环节取得比较好的效果，文件解析的准确性至关重要。如果在文件解析这一环节质量不高的话，后面的环节不论怎么优化，也不会达到很好的效果。所以花大力气在文件的解析上，后面会收到事半功倍的效果。

RAG 排坑指南001——文档解析

Angus

02-18

1515

RAG搜索增强是一个极其简单的概念。简而言之就是将搜索召回的内容，送给模型润色，重新生成更好的答案。看似简单，实际做起来，就极其的复杂。想要做个演示demo也很简单，复杂的是如何把回答正确率提升到90以上。RAG中的问题非常之多。并且问题环环相扣。例如，如果文档解析做不到，就不可能在召回的阶段将内容准确的召回（也就是召回率低）虽然可以通过扩大topK来尽可能的提升召回率，但是假如在解析的过程中数据丢失了。是无论如何都找回不到的。如果无法召回，正确的答案就无法送给模型，自认而然就无法回答正确。

RAG文档解析调研

猪丶过去拱Ta

07-07

1265

我们都知道，随着模型能力的不同，LLM 多少都会有概率会出现幻觉，在这种情况下，一款 RAG 产品应该随时随地给用户以参考，让用户随时查看 LLM 是基于哪些原文来生成答案的，这需要同时生成原文的引用链接，并允许用户的鼠标 hover 上去即可调出原文的内容，甚至包含图表。从实际前端的展示的 Demo 来看，RAGFlow 可以将解析后的文本块与原始文档中的原始位置关联起来，这个效果还是比较惊艳的，目前看起来只有 RagFlow 实现了类似的效果。默认采用的是识别布局的方式来解析pdf文档的。

【LLM大模型】RAG工程实践拦路虎之一：PDF格式解析杂谈

huang9604的博客

08-12

749

不管是Java还是Python里面，对于处理PDF中间件的部分，都需要对图形类的API/算法熟悉和掌握，这里面包含图形的转换、缩放、矩阵坐标、截取等等，都会在PDF提取的过程中使用到。在上面Python和Java生态库的开源组件，基本都是针对文字的PDF处理为主，当我们的PDF是扫描件时，那上面的组件统统失效，都提取不出来文本信息。：在处理PDF中，结合开源的技术中间件，对于PDF的ISO标准，我们也是需要了解的，这样更加有利于开发人员理解中间件的代码写法及含义。

探索大模型应用：构建基于检索的RAG实战指南

2401_84587944的博客

05-05

1363

4. Prompt模板构建构建一个符合中文对话语境的Prompt模板，用于生成问题并提供已知信息。

百篇论文博文导航AI工程之路：FT、KG、RAG与Agent技术全方位探索

丨汀、的博客

07-08

447

百篇论文博文导航AI工程之路：FT、KG、RAG与Agent技术全方位探索

大模型微调部署实战及类GPT工具的高效使用

热门推荐

herosunly的博客

07-24

7万+

本文主要介绍了专栏《大模型微调部署实战及类GPT工具的高效使用》的核心内容，希望对使用大语言模型的同学们有所帮助。文章目录 1. 前言 2. 专栏亮点 3. 你的收获 4. 详细目录

【AI大模型应用开发】【RAG优化 / 前沿】0. 综述：盘点当前传统RAG流程中存在的问题及优化方法、研究前沿

同学小张的博客

03-07

3730

10个痛点问题，20+优化方法，8个前沿RAG研究。本文我们从RAG的流水线开始，全面梳理了当前传统RAG存在的问题，同时针对每个问题，总结了优化方法。并且，整理了当前前沿的RAG研究。

RAG案例演示：PDF文件解析

cts618

08-08

158

RAG案例演示：PDF文件解析

RAG 02：揭开 PDF 文档解析的神秘面纱

DEVELOPERAA的博客

05-13

1243

对于 RAG 系统而言，从文档中提取信息是一种不可避免的情况。确保能够从源文件中有效地提取内容，对于提高最终输出的质量至关重要。

RAG之PDF文件中多种格式数据解析实践

musicml的博客

05-29

1187

▼最近直播超级多，预约保你有收获RAG 检索增强生成由2部分构成：一是离线对异构的数据进行数据工程处理成知识，并存储在知识库中，二是基于用户的提问进行知识库的检索增强。如下图所示：其中最关键的一个环节是 PDF 格式的文件如何提取成知识，下面详细剖析。—1—PDF 文件中文本数据如何提取？能够处理文本提取的 Python 库有多个，其中较为知名的包括 pdfminer.six、PyMuPDF、Py...

【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路

余俊晖，NLP炼丹师，目前专注自然语言处理领域研究。曾获得国内外自然语言处理算法竞赛TOP奖项近二十项。

06-10

3541

现阶段，尽管大模型在生成式问答上取得了很大的成功，但由于大部分的数据都是私有数据，大模型的训练及微调成本非常高，RAG的方式逐渐成为落地应用的一种重要的选择方式。然而，如何准确的对文档进行划分chunks，成为一种挑战，在现实中，大部分的专业文档都是以 PDF 格式存储，低精度的 PDF 解析会显著影响专业知识问答的效果。因此，本文将介绍针对pdf，介绍一些pdf结构化技术链路供参考。

【文档智能 & RAG】RAG增强之路-智能文档解析关键技术难点及PDF解析工具PDFlux

余俊晖，NLP炼丹师，目前专注自然语言处理领域研究。曾获得国内外自然语言处理算法竞赛TOP奖项近二十项。

06-15

2502

在私域知识问答和企业知识工程领域，结合Retrieval-Augmented Generation（RAG）模型和大型语言模型（LLM）已成为主流方法。然而，企业中存在着大量的PDF文件，PDF解析的低准确性显著影响了基于专业知识的问答效果，因此，这些文件的有效解析对RAG模型的构建至关重要。上篇文章（【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路）主要讨论了开源的PDF解析技术，而本文将先探讨下RAG落地时常见的问题及文档解析在RAG的重要性智能文档解析关键技术。