Python PDF 转 TXT

Antidotor

已于 2023-01-27 17:35:46 修改

阅读量4k

点赞数 8

分类专栏： Python 文章标签： python pdf 开发语言

于 2023-01-18 17:42:29 首次发布

本文链接：https://blog.csdn.net/Antidotor/article/details/128728698

版权

Python 专栏收录该内容

2 篇文章

订阅专栏

该代码示例展示了如何利用Python的pdfplumber库将PDF文件转换为TXT格式。通过打开PDF文件，遍历每一页，提取文本并写入TXT文件，实现了文件的转换。还提供了一个名为pdf2txt的函数，方便重复使用此转换过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

整理了一下 Pyhton 的 PDF 转 TXT 代码。
目标：将 Data.pdf 文件转为 Data.txt 文件。

# 导入库
import pdfplumber

# 设置文件名
file_name = 'Data'

# 打开 PDF 文件
p = pdfplumber.open(file_name + ".pdf")

# 提取 PDF 页数
page_num = len(p.pages)

# with-open-as 进行 PDF -> TXT
with pdfplumber.open(file_name + ".pdf") as pdf:
    for i in range(page_num):
        
        # 设置当前页
        page = pdf.pages[i]
        
        # 提取当前页面文本
        text = page.extract_text()
        
        # 若 text 不为空值则写入 TXT 文件
        if text != None:
            
            # 设置 TXT 文件
            f = open(file_name + ".txt", "a", encoding = "utf-8")
            
            # 写入 TXT 文件
            f.write(text)
            
            # 打印当前进度
            print(file_name+' '+str(i+1)+'/'+str(page_num)+' 页读写完成', end='\r')

# 写入完毕
f.close()

封装函数如下。

# 封装函数
def pdf2txt(file_name):
    p = pdfplumber.open(file_name + ".pdf")
    page_num = len(p.pages)
    with pdfplumber.open(file_name + ".pdf") as pdf:
        for i in range(page_num):
            page = pdf.pages[i]
            text = page.extract_text()
            if text != None:
                f = open(file_name + ".txt", "a", encoding = "utf-8")
                f.write(text)
                print(file_name+' '+str(i+1)+'/'+str(page_num)+' 页读写完成', end='\r')
    f.close()

# 测试函数
file_name = 'Data'
pdf2txt(file_name)
# Data 32/143 页读写完成