python识别pdf中的表格并保存execl

tone1128

于 2020-04-15 11:44:08 发布

阅读量572

点赞数 1

分类专栏： python 文章标签： python pytorch

本文链接：https://blog.csdn.net/tone1128/article/details/105531465

版权

python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

识别pdf中的表格并保存execl
pdf每个页码保存一个Execl Sheet页

		# 识别pdf表格保存到Execl
    def Get_Table_From_PDF(self,filePath,):
        y = 0
        j = 0
        # 定义保存Excel的位置
        self.workbook = xlwt.Workbook()                 #定义workbook
        self.sheet = self.workbook.add_sheet('Sheet')   #添加sheet
        pdf = pdfplumber.open(filePath)
        for page in pdf.pages:
            #根据pdf页码生成对应的Execl sheet页数
            if j<len(pdf.pages):
                 j =j+ 1
                 self.sheet = self.workbook.add_sheet('Sheet'+str(j))   #添加sheet
            # 获取当前页面的全部文本信息，包括表格中的文字
            # print(page.extract_text())                     
            for table in page.extract_tables():
                for row in table:  
                    for j in range(len(row)):
                        self.sheet.write(y, j, row[j])
                    y =y + 1
        pdf.close()
        # 保存Excel表
        self.workbook.save('D:/Python/宜10-8-42井完井卡片.xls')