Python 读取PDF文件

最新推荐文章于 2024-08-05 11:15:55 发布

梦因you而美

最新推荐文章于 2024-08-05 11:15:55 发布

阅读量1.8k

点赞数

分类专栏：办公自动化文章标签： PDF

本文链接：https://blog.csdn.net/apollo_miracle/article/details/100601047

版权

办公自动化专栏收录该内容

16 篇文章 0 订阅

订阅专栏

首先需要安装 pdfminer3k 库：

pip install pdfminer3k

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
from pdfminer.layout import *
from pdfminer.converter import PDFPageAggregator


path = r"C:\Users\Administrator\Desktop\a.pdf"
toPath = r"C:\Users\Administrator\Desktop\a.txt"

def Pdf2Txt(Path,Save_name):
    #来创建一个pdf文档分析器
    parser = PDFParser(Path)
    #创建一个PDF文档对象存储文档结构
    document = PDFDocument(parser)
    # 检查文件是否允许文本提取
    if not document.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        # 创建一个PDF资源管理器对象来存储共赏资源
        rsrcmgr=PDFResourceManager()
        # 设定参数进行分析
        laparams=LAParams()
        # 创建一个PDF设备对象
        # device=PDFDevice(rsrcmgr)
        device=PDFPageAggregator(rsrcmgr,laparams=laparams)
        # 创建一个PDF解释器对象
        interpreter=PDFPageInterpreter(rsrcmgr,device)
        # 处理每一页
        for page in PDFPage.create_pages(document):
            interpreter.process_page(page)
            # 接受该页面的LTPage对象
            layout=device.get_result()
            for x in layout:
                if(isinstance(x,LTTextBoxHorizontal)):
                    with open('%s'%(Save_name),'a') as f:
                        f.write(x.get_text()+'\n')

Path = open(path, 'rb')
Pdf2Txt(Path, toPath)