docling - 多格式文档解析和导出工具-CSDN博客

本文链接：https://blog.csdn.net/puterkey/article/details/143734297

这是一个由 IBM 开源的 Python 工具，专门用于将各类文档转化为适合生成式 AI 使用的工具。它能够将 PDF、DOCX、PPTX、图片、HTML、Markdown 等多种流行文档格式，导出为 Markdown 和 JSON 格式，支持多种 OCR 引擎（PDF）、统一的文档对象（DoclingDocument），轻松集成检索增强生成（RAG）和问答应用，适用于需要将文档作为生成式 AI 模型输入的场景。

主要功能

多格式支持：Docling能读取和解析多种流行的文档格式，包括PDF、DOCX、PPTX、图像、HTML、AsciiDoc和Markdown，支持将文档导出为Markdown和JSON格式。

高级PDF理解：Docling具备对PDF文档的高级理解能力，包括页面布局、阅读顺序和表格结构的识别。

统一文档表示：基于DoclingDocument格式，Docling提供一个统一且富有表现力的文档表示格式，表达文档中的文本、表格、图片等内容，及文档的层次结构。

OCR支持：Docling支持光学字符识别（OCR），能识别扫描PDF中的文字，让Docling能处理扫描或手写的文档。

工具集成：Docling易于与LlamaIndex和LangChain等工具集成，为RAG（Retrieval-Augmented Generation）/QA（Question Answering）应用提供支持。

安装和使用

安装

要使用 Docling，只需从你的包管理器（例如 pip）安装即可：docling

pip install docling

适用于 macOS、Linux 和 Windows 环境。x86_64 和 arm64 架构。

文档中提供了更详细的安装说明。

开始使用

要转换单个文档，请使用，例如：convert()

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"