使用Python提取pdf文件中的文本

立秋6789

于 2024-05-18 10:55:45 发布

阅读量331

点赞数 5

文章标签： python pdf 开发语言

本文链接：https://blog.csdn.net/summerriver1/article/details/139021624

版权

使用Python提取pdf文件中的文本

介绍
效果
代码

介绍

使用python提取pdf文件中的文本。

效果

原pdf文件内容：
在这里插入图片描述
提取的文本：

代码

from pdfminer.high_level import extract_text


def extract_pdf_to_txt(pdf_path, txt_path):
    # 提取PDF中的文本
    text = extract_text(pdf_path)

    # 将文本写入txt文件
    with open(txt_path, 'w', encoding='utf-8') as f:
        f.write(text)

    print(f"PDF text extracted to {txt_path}")


# 使用函数
pdf_file_path = 'pdf_res/output_1.pdf'  # 替换为你的PDF文件路径
txt_file_path = 'extracted_text.txt'  # 提取后的文本文件名

extract_pdf_to_txt(pdf_file_path, txt_file_path)