python提取PDF文件

本文介绍了如何利用Python的pdfminer库读取PDF文件,并详细阐述了读取PDF中的坐标和文本的运行机制。
摘要由CSDN通过智能技术生成

一、1

import os
import pdfplumber
from common.log import Log
from common.data_process import FileOperate
from common.config_reader import ConfigReader
import datetime

class BaseMethod:

    def __init__(self):
        self.log = Log()
        self.file_path = ConfigReader().get_value("file", "Case_file_path")
        self.fileoperate = FileOperate()
        # self.runstatus_file_path = ConfigReader().get_value("file", "runstatus_file_path")

    def open_path(self):
        # 获取pdf文件路径
        (self.dirname, self.filename) = os.path.split(self.file_path)
        (self.file, extension) = os.path.splitext(self.filename)
        if self.dirname == "":
            return -1
        elif self.filename == "":
            return -1
        else:
            return 0

    def as_name(self):
        # pdf 提取信息后另存为的路径
        if not os.path.exists(self.dirname):
            os.mkdir(self.dirname)
        timestr = datetime.datetime.now().strftime("%Y_%m_%d_%H_%M_%S")
        self.savefile = os.path.join(self.dirname, self.file+'-'+timestr)
        try:
            if len(self.savefile) <= 100:
                return self.savefile
        except:
            self.log.logMsg(2, 'Failed to get file')
            return None

    def pages(self):
        pages = pdfplumber.open(self.file_path).pages
        for i in range(len(pages)):
            page = pages[i]
            return page

    def as_txt_file(self):
        # 读取pdf文件,写入txt文件
        txt_file = self.as_name()
        try:
            table = self.pages().extract_text()
            self.fileoperate.writefile(txt_file + ".txt", "txt", table
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值