Python PDF 转 TXT

该代码示例展示了如何利用Python的pdfplumber库将PDF文件转换为TXT格式。通过打开PDF文件,遍历每一页,提取文本并写入TXT文件,实现了文件的转换。还提供了一个名为pdf2txt的函数,方便重复使用此转换过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

整理了一下 Pyhton 的 PDF 转 TXT 代码。
目标:将 Data.pdf 文件转为 Data.txt 文件。

# 导入库
import pdfplumber
# 设置文件名
file_name = 'Data'

# 打开 PDF 文件
p = pdfplumber.open(file_name + ".pdf")

# 提取 PDF 页数
page_num = len(p.pages)

# with-open-as 进行 PDF -> TXT
with pdfplumber.open(file_name + ".pdf") as pdf:
    for i in range(page_num):
        
        # 设置当前页
        page = pdf.pages[i]
        
        # 提取当前页面文本
        text = page.extract_text()
        
        # 若 text 不为空值则写入 TXT 文件
        if text != None:
            
            # 设置 TXT 文件
            f = open(file_name + ".txt", "a", encoding = "utf-8")
            
            # 写入 TXT 文件
            f.write(text)
            
            # 打印当前进度
            print(file_name+' '+str(i+1)+'/'+str(page_num)+' 页读写完成', end='\r')

# 写入完毕
f.close()

封装函数如下。

# 封装函数
def pdf2txt(file_name):
    p = pdfplumber.open(file_name + ".pdf")
    page_num = len(p.pages)
    with pdfplumber.open(file_name + ".pdf") as pdf:
        for i in range(page_num):
            page = pdf.pages[i]
            text = page.extract_text()
            if text != None:
                f = open(file_name + ".txt", "a", encoding = "utf-8")
                f.write(text)
                print(file_name+' '+str(i+1)+'/'+str(page_num)+' 页读写完成', end='\r')
    f.close()
# 测试函数
file_name = 'Data'
pdf2txt(file_name)
# Data 32/143 页读写完成
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值