# #-*- coding: UTF-8 -*-
# -*- coding:utf-8 -*-
##提取pdf文件中的文字
importtime,os.path,requests,re
time1=time.time()
frompdfminer.pdfinterp importPDFResourceManager, PDFPageInterpreter
frompdfminer.converter importPDFPageAggregator
frompdfminer.layout importLAParams,LTTextBoxHorizontal
frompdfminer.pdfpage importPDFTextExtractionNotAllowed,PDFPage
frompdfminer.pdfparser importPDFParser
frompdfminer.pdfdocument importPDFDocument
classCPdf2TxtManager():
defchangePdfToText(self, filePath):
# 以二进制读模式打开
file = open(path, 'rb')
#用文件对象来创建一个pdf文档分析器
praser = PDFParser(file)
# 创建一个PDF文档对象存储文档结构,提供密码初始化,没有就不用传该参数
doc = PDFDocument(praser, password='')
##检查文件是否允许文本提取
if notdoc.is_extractable:
raisePDFTextExtractionNotAllowed
# 创建PD