1.安装PDFminer3k
使用pip 命令安装
pip install pdfminer3k
2.编写测试
你可以在这里获得官方参考:PDFMiner
如果你不喜欢看英文的官方文档,这里的翻译也许对你有帮助:中文PDFMiner文档
下面的程序,我拓展了官方给出的例子,你可以通过这个例子统计出来你的pdf文件一共包含哪些内容,比如文本框,曲线,图片等
#!/usr/bin/python
# -*- coding: utf-8 -*-
__author__ = 'yooongchun'
import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
'''
解析pdf文件,获取文件中包含的各种对象
'''
# 解析pdf文件函数
def parse(pdf_path):
fp = open(pdf_path, 'rb') # 以二进制读模式打开
# 用文件对象来创建一个pdf文档分析器
parser