Python处理PDF和Excel

pdfplumber 处理PDF文件

1.提取PDF指定页码文本


import pdfplumber
with pdfplumber.open("C:\\Users\\Lucas\\Desktop\\py\\gsk\\grades.pdf") as pdf:
    page01 = pdf.pages[0] #指定页码
    text = page01.extract_text()#提取文本
    print(text)

2.提取PDF中表格

import pdfplumber
import pandas as pd
pdf=pdfplumber.open("C:\\Users\\Lucas\\Desktop\\py\\gsk\\grades.pdf")
pages=pdf.pages
page=pages[0]
tables=page.extract_tables()
table=tables[0]
data09=pd.DataFrame(table[:])

3.使用openpyxl来输出excel

import pdfplumber
from openpyxl import Workbook #保存表格,需要安装openpyxl
with pdfplumber.open("C:\\Users\\Lucas\\Desktop\\py\\gsk\\grades.pdf") as pdf:
    page01 = pdf.pages[0]
    str1=p0.extract_text()[:163].split(' ')
    table = page01.extract_table()
    workbook = Workbook()
    sheet = workbook.active
    sheet.append(str1)
    for row in table:
        sheet.append(row)
    workbook.save(filename="C:\\Users\\Lucas\\Desktop\\py\\gsk\\grades3.xlsx")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值