Python处理PDF和Excel

最新推荐文章于 2023-11-08 15:58:03 发布

CS小白Lucas

最新推荐文章于 2023-11-08 15:58:03 发布

阅读量265

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_41077427/article/details/123712150

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

pdfplumber 处理PDF文件

1.提取PDF指定页码文本


import pdfplumber
with pdfplumber.open("C:\\Users\\Lucas\\Desktop\\py\\gsk\\grades.pdf") as pdf:
    page01 = pdf.pages[0] #指定页码
    text = page01.extract_text()#提取文本
    print(text)

2.提取PDF中表格

import pdfplumber
import pandas as pd
pdf=pdfplumber.open("C:\\Users\\Lucas\\Desktop\\py\\gsk\\grades.pdf")
pages=pdf.pages
page=pages[0]
tables=page.extract_tables()
table=tables[0]
data09=pd.DataFrame(table[:])

3.使用openpyxl来输出excel

import pdfplumber
from openpyxl import Workbook #保存表格，需要安装openpyxl
with pdfplumber.open("C:\\Users\\Lucas\\Desktop\\py\\gsk\\grades.pdf") as pdf:
    page01 = pdf.pages[0]
    str1=p0.extract_text()[:163].split(' ')
    table = page01.extract_table()
    workbook = Workbook()
    sheet = workbook.active
    sheet.append(str1)
    for row in table:
        sheet.append(row)
    workbook.save(filename="C:\\Users\\Lucas\\Desktop\\py\\gsk\\grades3.xlsx")