python自动化办公--pdf文档操作

一、介绍
pdfplumber是一个pdf操作第三方库,可以实现pdf的提取文本、表格、尺寸等。

二、安装库
pip install pdfplumber
在这里插入图片描述
三、使用方法
1、类介绍
「pdfplumber.PDF类」
属性 描述
.metadata 获取pdf基础信息,返回字典
.pages 一个包含pdfplumber.Page实例的列表,每一个实例代表pdf每一页的信息。

2、导入库

import pdfplumber

3、打开pdf文件

pdf = pdfplumber.open("test.pdf")

4、获取pdf文档的信息
1)作者等

print(pdf.metadata)

2)页数

print(len(pdf.pages))

3)查看当前页信息

# 第一页pdfplumber.Page实例
first_page = pdf.pages[0]
# 查看页码
print('页码:',first_page.page_number)
# 查看页宽
print('页宽:'first_page.width)
# 查看页高
print('页高:'first_page.height)

4)读取文本

text = first_page.extract_text()
print(text)

5)读取里面的excel表

# 第二页pdfplumber.Page实例
first_page = pdf.pages[1]
# 自动读取表格信息,返回列表
table = first_page.extract_tables()

print(table)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值