python3.7
要求:提取pdf中表格里面的内容,提取每一个单元格中的内容,并且精确。
尝试了4种,每种都需要安装不同的module。代码不多,效果自己运行下试下吧(内容不便)
非图片型表格!!
推荐最后一种!!!
第一种
pip3 install pdfminer # 20191125
pip3 install pdfminer.six # 20201018
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
# 识别第一版
def pdfTotxt(filepath,outpath):
try:
fp = open(filepath, 'rb')
outfp=open(outpath,'w')
#创建一个PDF资源管理器对象来存储共享资源,caching = False不缓存
rsrcmgr = PDFResourceManager(caching = False)
# 创建一个PDF设备对象
laparams = LAParams()
device = TextConverter(rsrcmgr, outfp, codec='utf-8', laparams=laparams,imagewriter=None)
#创建一个PDF解析器对象
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.get_pages(fp, pagenos = set(),maxpages=0,
password='',caching=False, check_extractable=True):
page.rotate = page.rotate % 360
interpreter.process_page(page)