Python实现PDF转换为TXT

一、环境配置

在实现转换之前需要我们配置好相关环境配置:

如果您是Python3.X版本的话,需要安装pdfminer.six 第三方库

pip install pdfminer.six

如果您是Python2.X版本的话,需要安装pdfminer.six 第三方库

pip install pdfminer3k

方法一:如果您有pycharm这个软件,那么我们的环境配置就十分简单了

step1:点开【文件】----->选择【设置选项】
在这里插入图片描述
step2:进入【设置】后点开【项目】----->选择【Python解释器】,点击左上方的那个【+】号
在这里插入图片描述
step3:进入【+】后搜索您想要的【第三方库名称】,因为我的是Python3.x版本,所以需要选择pdfminer.six版本,然后点击【安装软件包】,就成功了。
在这里插入图片描述
方法二:去官网下载安装包,但是由于我这里没有使用,所以如果您需要的话可以自行去百度自取安装方法。

二、代码实现

import os
import re
from pdfminer.converter import LTChar, TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox
from io import StringIO
from io import open


# 读取pdf文件文本内容
def read(path):
    parser = PDFParser(path)
    doc = PDFDocument(parser, '')
    parser.set_document(doc)
    if not doc.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 创建PDf 资源管理器 来管理共享资源
        rsrcmgr = PDFResourceManager()
        # 创建一个PDF聚合器,包含资源管理器与参数分析器
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        # 循环遍历列表,每次处理一个page的内容
        page0 = ''
        for i, page in enumerate(PDFPage.create_pages(doc)):
            interpreter.process_page(page)
            print("START PAGE %d\n" % i)
            if page is not None:
                interpreter.process_page(page)
            print("END PAGE %d\n" % i)
            # 接受该页面的LTPage对象
            layout = device.get_result()
            print(layout)
            # 这里layout是一个LTPage对象,里面存放着这个 page 解析出的各种对象
            # 包括 LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等
            line0 = ''
            for x in layout:
                if isinstance(x, LTTextBox):
                    line0 = line0 + x.get_text().strip()
            page0 = page0 + line0
        return page0  # 返回pdf文件中所有提取到的文本内容


if __name__ == '__main__':
#PDF文件所在的路径.注意:一定要将Python文件与PDF文件放在同一个目录内,否则代码不能成功运行
    path = 'C:\pycharm'     
    pdfList = os.listdir(path)
    # 批量读取存储
    pdf_num = 0
    for li in pdfList:
        try:
            pdffile = open(path + '/' + li, "rb")
            content = read(pdffile)
        except:
            continue
        str = re.sub('.pdf', '.txt', li)
         #输出的TXT文件,生成out.txt文件
        file1 = 'out' + str  
        with open(file1, 'w+', encoding='utf8') as f:
            f.write(content)
        pdf_num = pdf_num + 1
        print("DONE:" + str)
    print('number of done-article:', end="")
    print(pdf_num)

三、代码实现结果

在这里插入图片描述
代码成功实现之后,会生成一个out.txt文件,里面就是提取PDF的内容。
(由于我这个之前已经提取过了,所以说它生成的是out1.txt文件)

在这里插入图片描述

  • 5
    点赞
  • 63
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值