pdf转txt 【python】

最新推荐文章于 2024-08-14 12:00:04 发布

不戳的柠檬

最新推荐文章于 2024-08-14 12:00:04 发布

阅读量568

点赞数 13

文章标签： python pdf 笔记

本文链接：https://blog.csdn.net/q2544048170/article/details/135012604

版权

当我们需要对PDF文件中的文本进行处理时，将其转换为文本（TXT）格式是一个常见的需求。这个过程可以通过使用Python编程语言和一些相关的库来轻松实现。在本文中，我们将使用PyMuPDF库将PDF文件转换为TXT文件，并通过命令行参数来指定输入和输出的文件夹。

步骤一：安装必要的库

首先，确保你已经安装了argparse和pymupdf库。你可以使用以下命令安装它们：

pip install argparse pymupdf

步骤二：编写Python脚本

下面是一个简单的Python脚本，它接受命令行参数，遍历指定文件夹中的所有PDF文件，并将其转换为TXT文件：

import os
import argparse
import fitz  # PyMuPDF库

def pdf_to_txt(pdf_path, txt_path):
    doc = fitz.open(pdf_path)
    text = ""
    for page_num in range(doc.page_count):
        page = doc[page_num]
        text += page.get_text()
    with open(txt_path, 'w', encoding='utf-8') as txt_file:
        txt_file.write(text)

def convert_folder(input_folder, output_folder):
    for root, dirs, files in os.walk(input_folder):
        for file in files:
            if file.endswith(".pdf"):
                pdf_path = os.path.join(root, file)
                txt_path = os.path.join(output_folder, os.path.splitext(file)[0] + ".txt")
                pdf_to_txt(pdf_path, txt_path)
                print(f"Converted: {pdf_path} to {txt_path}")

if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="Convert PDF files in a folder to TXT files.")
    parser.add_argument("input_folder", help="Input folder containing PDF files")
    parser.add_argument("output_folder", help="Output folder to save TXT files")

    args = parser.parse_args()

    input_folder = args.input_folder
    output_folder = args.output_folder

    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    convert_folder(input_folder, output_folder)

步骤三：运行脚本

保存脚本为pdf_to_txt_converter.py，然后在命令行中运行它：

python pdf_to_txt_converter.py input_folder output_folder

其中，input_folder 是包含PDF文件的文件夹路径，output_folder 是保存生成的TXT文件的文件夹路径。

这个脚本会遍历指定的文件夹，将每个PDF文件转换为TXT文件，并保存到指定的输出文件夹中。在整个过程中，我们使用了PyMuPDF库来处理PDF文件，该库对文本提取功能相当强大。

这样的脚本可以在文本分析、数据挖掘等任务中起到很大的作用，使得我们能够更方便地处理和分析PDF文档中的信息。

不戳的柠檬

关注

13
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
pdf转txt 【python】

当我们需要对PDF文件中的文本进行处理时，将其转换为文本（TXT）格式是一个常见的需求。这个过程可以通过使用Python编程语言和一些相关的库来轻松实现。在本文中，我们将使用PyMuPDF库将PDF文件转换为TXT文件，并通过命令行参数来指定输入和输出的文件夹。
复制链接

扫一扫