pdf转txt

import pdfplumber # 导入pdf解析模块

def pdf2txt(file_name):
    p = pdfplumber.open(file_name +'.pdf')
    page_num = len(p.pages) # 读取文件的总数
    with pdfplumber.open(file_name +'.pdf') as pdf: # 用pdf解析器读取pdf文件,并对象化为pdf
        for i in range(page_num):
            page = pdf.pages[i] # 读取每一页内容,格式仍为pdf
            text = page.extract_text() # 用page.extract_text()方法将读取到的每一页内容转换成TXT文本格式,这个函数足够强大。
            if text != None:
                f = open(file_name+ '2' +'.txt', 'a', encoding = 'utf-8') # 创建一个空的文本文档,并把文件名定义为和pdf文件一样的
                f.write(text)  # 将读取到的内容写入文本文档
                print(file_name + ' ' + str(i+1) + '/' + str(page_num) +'页读写完成.') # 每读完一页,打印读取信息。
    f.close()

file_name = input('输入你要解析的PDF文件名称(确保该文件在Pyhon根目录下):')
pdf2txt(file_name)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值