基于 Python 将 PDF 转 Markdown 并拆解为 JSON，支持自定义标题处理

最新推荐文章于 2025-05-02 16:05:52 发布

drebander

最新推荐文章于 2025-05-02 16:05:52 发布

阅读量1.3k

点赞数 7

文章标签： python pdf json

本文链接：https://blog.csdn.net/u012561308/article/details/144542275

版权

在日常工作中，我们经常需要将 PDF 文件转换为可编辑、可结构化的数据格式，比如 Markdown 和 JSON。但实际操作中，自动化工具往往会出现标题识别不准确的问题，尤其是 PDF 转换过程中，缺乏明确的标题标识。这篇文章将教你如何使用 Python 将 PDF 转换为 Markdown，并通过自定义规则精准识别标题，最终将内容按标题结构拆解为 JSON，方便后续快速检索与使用。

1. 实现目标

将 PDF 文件转换为 Markdown 格式，保留内容和大致结构。
自定义处理标题，解决自动识别不准确的问题。
将 Markdown 内容解析并按标题结构拆解为 JSON，支持通过标题快速查找对应内容。

2. 技术方案

我们将使用以下技术工具：

pdfminer.six：提取 PDF 中的文本。
markdownify：将纯文本转换为 Markdown 格式。
自定义标题识别：通过规则或关键词判断哪些行是标题。
JSON 结构化输出：将 Markdown 内容拆解并按标题结构存储为 JSON。

3. 依赖安装

首先，确保你的环境已安装所需的 Python 库：

pip install pdfminer.six markdownify

4. 代码实现

以下是完整的代码实现，分为 PDF 转 Markdown、标题自定义处理 和 生成 JSON 三个步骤。

4.1 PDF 转 Markdown

使用 pdfminer.six 提取 PDF 文本，然后通过 markdownify 转换为 Markdown 格式：

from pdfminer.high_level import extract_text
from markdownify import markdownify

def pdf_to_markdown(pdf_path):
    """
    将 PDF 文件转换为 Markdown 文本
    """
    # 提取 PDF 文本
    raw_text = extract_text(pdf_path)
    # 将原始文本转换为 Markdown 格式
    markdown_text = markdownify(raw_text)
    return markdown_text

4.2 自定义标题识别与解析

标题识别不准确时，可以通过自定义规则进行判断：

根据 关键词（如“第”、“章”、“节”）判断是否是标题。
通过 文本长度、大写格式 等规则进一步判断。

import re

def is_custom_title(line, keywords=None, min_length

最低0.47元/天解锁文章