【高级RAG技巧】在大模型知识库问答中增强文档分割与表格提取

最新推荐文章于 2025-03-28 15:49:43 发布

深度学习机器

最新推荐文章于 2025-03-28 15:49:43 发布

阅读量3.8k

点赞数 29

分类专栏：大语言模型优质项目文章标签：人工智能 python 语言模型

本文链接：https://blog.csdn.net/qq_33137873/article/details/137889314

版权

前言

文档分割是一项具有挑战性的任务，它是任何知识库问答系统的基础。高质量的文档分割结果对于显著提升问答效果至关重要，但是目前大多数开源库的处理能力有限。
这些开源的库或者方法缺点大致可以罗列如下：

只能处理文本，无法提取表格中的内容
缺乏有效的分割策略，要么是一整个文档全部提取，要么是词粒度的获取

对于第一点，一般是把表格中的内容识别成文本，这样喂给大模型的时候就会出现一连串数字或者字母，这无疑会增大模型的理解难度；对于第二点，则是需要按照指定的长度对文档进行切分，或者把词按照一定的规则拼接到一块，这同样会损失到文本自身的上下文信息。

而本文接下来介绍的Open-parse这个库可以直接从文本中提取出多个节点，每个节点就是一个chunk，已经分好了，因此无需再按照长度进行split，这样同时也比单独提取一个词再进行合并又简化了不少操作；同时还支持同时提取表格和文字，无需分开提取。

快速开始

安装

pip install openparse

使用pip进行安装，同时这个库依赖Pymupdf、pdfminer等其他库，也会同时安装。

识别文字

pdf = "c:\\人口.pdf"
parser = openparse.DocumentParser()
parsed_basic_doc = parser.parse(pdf)
for node in parsed_basic_doc.nodes:
    node
    print(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

深度学习机器

关注关注

29
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

深度学习-70-大语言模型LLM之基于大模型LLM与检索增强技术RAG的智能知识库

qq_20466211的博客

06-10

1232

大模型在回答问题或生成内容前，首先在外部数据库中进行检索RAG，将相似度高的内容返回给大模型LLM，再进一步整理生成。

基于Deepseek+RAG构建企业知识库：文档预处理与数据整理

maxcode

03-03

1131

在当今数字化时代，企业知识库的构建对于知识管理和高效决策至关重要。基于 Deepseek + RAG（Retrieval-Augmented Generation）技术构建企业知识库，能够有效整合企业内外部知识资源，实现知识的快速检索和精准应用。而在这一过程中，文档预处理与数据整理是关键的基础环节，直接关系到知识库的质量和后续应用效果。

参与评论您还未登录，请先登录后发表或查看评论

logit模型matlab代码求系数-blp:蓝皮书

06-08

logit 模型matlab代码求系数蓝皮书 Berry、Levinsohn 和 Pakes (1995) 提出的需求的随机系数 logit 模型（因此，BLP）[1]。这是著名的 Nevo 的 Matlab 代码 [4] 的 Wolfram Mathematica [5] 版本，带有玩具 BLP 示例。 Mathematica 版本在教育方面有几个优点。代码更短，包含在一个文件中；代码是不可变的，因此算法的每一步都易于单独研究；优化不需要雅可比（又名梯度）。我们会在适当的情况下以 Nevo 的代码命名变量和函数。 BLP 模型如何工作的详细解释可以在 [2] 和 [3] 中找到。用 1路打开包装BLP_main.nb从BLP_main.zip在同一个文件夹中blp_import所在。 blp_import文件夹有五个.xlsx文件，其中输入数据来自 Nevo 的代码 [4]。选择笔记本中的所有单元格并运行Shift + Enter 。 2种方法把BLP_kern.wl在同一个文件夹中blp_import所在。从可见位置运行 wolframscript： $ wol

大模型论文 | 大模型生成式信息抽取综述

老皮的博客

12-30

1677

作者：香港城市大学、中国科学技术大学许德容论文地址： https://journal.hep.com.cn/fcs/EN/10.1007/s11704-024-40555-y代码地址：https://github.com/quqxui/Awesome-LLM4IE-Papers今天跟大家分享一篇来自于香港城市大学、中国科学技术大学、腾讯优图实验室总结的大模型生成式信息抽取综述，该文章已经被期刊Frontiers of Computer Science接受。

大模型 RAG：文档分块方案与 RAG 全流程

最新发布

weixin_44245188的博客

03-28

1062

大模型在预训练阶段获取的知识是有限的，一般需要数据增强模块引入外部知识库，通过知识检索的方式搜索于用户提问相关的知识，这也是 RAG 相关应用架构出现的原因。但这又引申出另一个问题，外部知识文档往往比较长，可能是包含几十页甚至数百页的内容，如果直接使用会存在以下问题所以我们需要根据一定策略将文本切分为小块，以便适应大模型的上下文窗口，同时提高知识检索的精度。分块的目标RAG分块策略：主流方法（递归、jina-seg）+前沿推荐（Meta-chunking、Late chunking、SLM-SFT）

关于大模型的一些问答（持续更新）

Yafee的专栏

06-04

3545

然后，在反向传播过程中，每个处理器会接收到其后续处理器计算出的梯度，并基于这些梯度以及其前向传播过程中保存的激活值，计算其负责的模型部分的梯度。同样，如果你使用的训练策略需要保存中间的激活值（例如，如果你使用了标准的反向传播或某些类型的规则化），那么还需要额外的空间。因此，对于100亿个参数，你需要大约40GB的空间来存储参数，再加上40GB的空间来存储梯度，总共需要80GB的空间。最后得到的就是一个完整的、已更新的模型，只不过这个模型的不同部分分散在不同的处理器上。当然，这些难点并不是不能克服的。

Advanced RAG 07：在RAG系统中进行表格数据处理的新思路

Baihai_IDP的博客

05-15

2601

使用多模态 LLM （如 GPT-4V[14] 、LLaVA[15] 或 FUYU-8b[16]）从图像数据中生成文本摘要，然后将这些文本摘要嵌入向量化，利用这些嵌入向量，可以对图像摘要进行高效检索（retrieve），在检索到的每个图像摘要中，都保留有一个对应的原始图像的引用（reference to the raw image），这属于上文的 (i) 类方法，最后将未经处理的图像数据和文本块传递给多模态 LLM 以便生成答案。首先，使用（a）至（d）中的任何一种方法，将文档中的所有表格解析为图像形式。

大模型+文档直接问答：开启智能问答新纪元

2401_85379281的博客

06-14

1164

随着人工智能技术的飞速发展，大模型和文档直接问答技术已经成为了智能问答领域的新宠。本文将为您详细解析这两种技术的原理、应用场景以及未来发展趋势，帮助您更好地了解这一领域的前沿动态。一、大模型技术原理大模型（Large Model）是指参数量达到亿级别以上的深度学习模型。通过海量数据训练，大模型能够学习到丰富的语言表示，从而在各种自然语言处理任务中取得优异的表现。大模型的核心思想是通过增加模型的参数量，提高模型的表达能力，使其能够捕捉到更复杂的语言规律。

【大模型】自动化问答生成：使用GPT-3.5将文档转化为问答对

热门推荐

gallonyin的博客

09-04

1万+

通过这个教程，你可以自动将大段文档转化为一问一答的问答对，无需人工干预。你可以对脚本文件再进行调试和改进，以适应你自己的项目。这个方法可以在处理大量文本时非常有用，特别是使用 GPT-3.5-16k 模型，它具有更大的输入长度限制，但是大文档仍然需要先做一些分段处理。

知识库的创建（1） - KnowledgeFile文件加载和分割

一起来研究langchain和langchain-chatchat

06-17

1581

前几篇讲了向量库的创建和索引的创建，我们可以去langchain-chatchat里看看，作者实现的类是怎么写的，可以学习一下作者的封装方法。我们可以先来看看类。类用于管理知识库目录中的文件，提供文件加载、文本分割等功能。它需要文件存在于磁盘上才能进行向量化等操作。类提供了对知识库中文件的管理功能，包括文件的加载、文本的分割和处理等。通过该类，可以方便地对知识库中的文件进行操作，并进行进一步的自然语言处理和分析。

大模型外挂知识库rag综述

posuosini的博客

03-19

9219

大模型外挂知识库rag的综述

深度解析RAG技术在大模型时代的原理与实践

m0_64752471的博客

10-21

1858

在 LLM 时代，RAG 的具体定义指的是，当回答问题或生成文本时，首先从大量文档中检索相关信息。随后，利用这些检索到的信息来生成响应或文本，从而提高预测质量。索引：文档被分割成块，编码成向量，并存储在向量数据库中；检索：根据语义相似性检索与问题最相关的前 k 个块；生成：将原问题和检索到的词块一起输入大语言模型中，生成最终答案。RAG 文本问答RAG 多模态问答。

从文档中释放结构化数据：利用大型语言模型革新表格提取技术

m0_59235245的博客

10-14

1890

想象一下，你被淹没在无数 PDF、电子表格和扫描文件中，苦苦寻找隐藏在某个复杂表格中的关键数据。从财务报告和研究论文，到简历和发票，这些文档中包含的复杂表格蕴藏着大量的结构化数据，需要快速准确地提取。传统上，提取这些结构化信息一直是数据处理中的一项复杂任务。然而，随着大型语言模型 (LLM) 的兴起，我们现在拥有了另一种工具，有可能解锁复杂的表格数据。优秀的表格解析器的准确性，可以为企业中许多工作流程的自动化铺平道路。您将了解到：表格提取概述及其固有挑战传统的表格提取方法及其局限性。

利用大模型解决表格数据处理难题

qingkahui24689的博客

01-13

2063

现在我们已经提取了表格和文本内容，接下来需要为它们创建摘要。因为直接将原始表格和文本存储到向量数据库中并进行相似性搜索不是一个好主意，所以我们对每个表格或文本内容的摘要（即文本嵌入）进行相似性搜索，这样可以更好地检索到所需数据。# 提示模板{context}"""

TextIn文档解析方案：使用大模型文档问答，我们可以不再长时间等待吗？

程序猿追的博客

05-21

1万+

最近，“多所高校规范大学生用AI写论文”的词条上了微博热搜。从一个侧面也说明，大模型已经深入高校学术群体的日常使用，成为学术规范方面不能回避的新趋势。对研究者来说，大模型能做的不只是根据指令生成文字，帮学生党完成写作，也能在更多方面充当一个不眠不休、陪伴价值拉满的助手。

ChatGPT | 分割Word文字及表格，优化文本分析

hellogv的专栏

07-28

3557

本文帮助提高文本处理和向量化的效率，： 1、分离文字和表格：将原始Word文档中的文字内容和表格分开保存。将文字内容保存为纯文本的Markdown文件，而将表格单独保存为多个只包含Markdown表格的Markdown文件。 2、切片并向量化处理：对于多个Markdown文件，按照固定的大小切片，确保切片大小是大于Markdown表格的体积，以确保包含完整的表格。然后对这些切片进行向量化处理。

你真的会使用大模型吗？—大模型六大提问技巧

python1234567_的博客

07-22

3942

大模型的应用如今已越来越广泛，虽然和大模型对话非常符合我们的直觉，但是为了能够获得满意的回答，仍然有一些小技巧需要知晓。提问看起来是一件小事情，但在OpenAI官方文档中是以工程来命名的，即Prompt Engineering（提示词工程）。OpenAI官方文档中给出了6大提示词撰写技巧，龙宝做了一些归纳和整理，来一起学习一下吧。 大模型无法读懂我们的心思。因此如果对结果有较多的要求，那么在撰写提示词时也应该尽可能详细的把每条要求写出来。如果对结果有任何意见，可以直接提出修改要求。。

大模型之RAG-如何做好文档切分，长上下文是否替代了RAG？

2401_84204207的博客

08-10

3251

抱歉各位jy，最近一直在加班赶项目，好长时间没有更新了。我们对RAG有了基本的认识，也了解了下他的原理与发展。

大模型知识问答: 文本分块要点总结

机器学习社区

07-08

1850

用较大chunk_size去字符切分文本，然后对大文本块用LLM做总结，作为摘要块加入向量数据库中。能在一定程度解决前面提到的问题1。

大模型数据采集和预处理：把所有数据格式，word、excel、ppt、jpg、pdf、表格等转为数据

Debroon

01-04

6357

主要目标：如何将不同格式的企业文档(Word/Excel/PPT等)高效转换为适用于RAG或模型微调的结构化数据集？如果是特殊的医疗表格、艺术字体、手写公式，基本上要自己 OCR 模型（YOLOX）训练。这个框架可以帮助任何需要将非结构化文档转换为结构化数据的场景，特别适合企业级应用。数据采集和预处理：文档格式统一化、图表数据结构化、文本化处理。解决手段：使用智能分类系统，自动识别文件类型并选择相应处理流程。如果很大，就需要 API，89 块可以识别 500 张图。问题：如何统一处理不同格式的文件？