本文是鉴于有些粉丝的工作需求,有时候需要遇到这些文件的处理。因此,我写了一个文章集合,供大家参考。全篇包括三个章节,分别为: Python使用openpyxl操作excel、 python使用PyPDF2和pdfplumber操作pdf 、 python使用python-docx操作word 。本篇为第二章节。
全文已整理为pdf,可按文末指引获取。
本章目录
章节二
python使用PyPDF2和pdfplumber操作pdf
1、PyPDF2和pdfplumber库介绍
2、python提取PDF文字内容
1)利用pdfplumber提取文字
2)利用pdfplumber提取表格并写入excel
3、PDF合并及页面的排序和旋转
1)分割及合并pdf
① 合并pdf
② 拆分pdf
2)旋转及排序pdf
① 旋转pdf
② 排序pdf
4、pdf批量加水印及加密、解密
1)批量加水印
2)批量加密、解密
① 加密pdf
② 解密pdf并保存为未加密的pdf
上下滚动查看更多
章节二:python使用PyPDF2和pdfplumber操作pdf
1、PyPDF2和pdfplumber库介绍
-
PyPDF2官网:PyPDF2官网 ( https://pythonhosted.org/PyPDF2/ ),可以更好的读取、写入、分割、合并PDF文件;
-
pdfplumber官网:pdfplumber官网( https://github.com/jsvine/pdfplumber ),可以更好地读取PDF文件内容和提取PDF中的表格;
-
这两个库不属于python标准库,都需要单独安装;
2、python提取PDF文字内容
1)利用pdfplumber提取文字
import PyPDF2
import pdfplumber
with pdfplumber.open("餐饮企业综合分析.pdf") as p:
page = p.pages[2]
print(page.extract_text())
加python学习qq群:775690737 送python零基础入门学习资料+99个源码
结果如下:
2)利用pdfplumber提取表格并写入excel
-
extract_table():如果一页有一个表格;
-
extract_tables():如果一页有多个表格;
import PyPDF2
import pdfplumber
from openpyxl import Workbook
with pdfplumber.