docling - 多格式文档解析和导出工具

这是一个由 IBM 开源的 Python 工具,专门用于将各类文档转化为适合生成式 AI 使用的工具。它能够将 PDF、DOCX、PPTX、图片、HTML、Markdown 等多种流行文档格式,导出为 Markdown 和 JSON 格式,支持多种 OCR 引擎(PDF)、统一的文档对象(DoclingDocument),轻松集成检索增强生成(RAG)和问答应用,适用于需要将文档作为生成式 AI 模型输入的场景。

主要功能

  • 多格式支持:Docling能读取和解析多种流行的文档格式,包括PDF、DOCX、PPTX、图像、HTML、AsciiDoc和Markdown,支持将文档导出为Markdown和JSON格式。
  • 高级PDF理解:Docling具备对PDF文档的高级理解能力,包括页面布局、阅读顺序和表格结构的识别。
  • 统一文档表示:基于DoclingDocument格式,Docling提供一个统一且富有表现力的文档表示格式,表达文档中的文本、表格、图片等内容,及文档的层次结构。
  • OCR支持:Docling支持光学字符识别(OCR),能识别扫描PDF中的文字,让Docling能处理扫描或手写的文档。
  • 工具集成:Docling易于与LlamaIndex和LangChain等工具集成,为RAG(Retrieval-Augmented Generation)/QA(Question Answering)应用提供支持。

安装和使用

安装

要使用 Docling,只需从你的包管理器(例如 pip)安装即可:docling​

pip install docling

适用于 macOS、Linux 和 Windows 环境。x86_64 和 arm64 架构。

文档中提供了更详细的安装说明

开始使用

要转换单个文档,请使用 ,例如:convert()​

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # document per local path or URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # output: "## Docling Technical Report[...]"

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值