目录
虽然PDF文件对文本布局非常好,容易打印并阅读,但软件要将它们解析为纯文本并不容易,Python目前解析PDF的扩展包有很多,本文将分别介绍PyPDF2、pdfplumber、pdfminer3k以及Camelot(若发现还有其他函数,继续补充),并分析优缺点,告诉你哪个是好用的PDF解析工具。
1.PyPDF2
PyPDF2没有办法从PDF文档中提取图像、图表或其他媒体,但它可以提取文 本,并将文本返回为 Python字符串。
缺点:PyPDF2从PDF提取文本时可能会出错,甚至根本打不开某些PDF文件。
基本实现代码如下:
import PyPDF2
# 使用open的‘rb’方法打开pdf文件,使用二进制模式
mypdf = open('pdfexample.pdf',mode='rb')
# 调用PdfFileReader函数
pdf_document = PyPDF2.PdfFileReader(mypdf)
# 使用PdfFileReader对象的变量,获取各个信息,如numPages属性获取PDF文档的页数
pdf_document.numPages
# 调用PdfFileReader对象的getPage()方法,传入页码,取得Page对象:输出PDF文档的第一页内容
first_page = pdf_document.getPage(0)
# 调用Page对象的extractText()方法,返回该页文本的字符串
text = first_page.extrac