1、解析pdf文件
最近需要将pdf中文本提取出来,于是就了解了一下pdfminer
首先安装:pip3 install pdfminer3k
之后就是用pdfminer解析,不多说,直接上代码,这些代码都是参考各位前辈
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams,LTImage
import os
path=''
def pdf_to_word(folder,password):
#获取指定目录下的所有文件
files=os.listdir(folder)
pdfFiles=[f for f in files if f.endswith('.pdf')]
#获取pdf类型的文件,放到一个列表中
for pdfFile in pdfFiles:
print(pdfFile)
#将目录和文件合并成一个路径 os.path.join('root','test','runoob.txt') ##root/test/runoob.txt
# pdfPath=os.path.join(folder,pdfFile)
#设置将要转换后存放word文件的路径
#