pdfminer3k应用
python处理pdf也是常用的技术了,pdfminer3k是一个非常好的工具。
先在系统目录下建立pip目录,呈现 C:\Users\Administrator\pip,之后建立pip.ini文本文件,内容如下:
[global]
index-url=http://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host=mirrors.aliyun.com
#安装最好通过设置国内代理下载安装,如阿里、北清等 ,以上我是通过阿里云代理,每次安装都很顺利,在此感谢阿里!
安装 pip install pdfminer3k
首先,通用脚本读取pdf中的文本:
from io import StringIO
from io import open
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
def read_pdf(pdf):
# resource manager
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
# device
device = TextConverter(rsrcmgr, ret