python3将PDF转化为txt文件
参考:
(1)https://github.com/pdfminer/pdfminer.six
(2)https://zhuanlan.zhihu.com/p/31017504
我在python3.6环境下pip install pdfminer.six,然后执行以下代码,就可以将pdf文件转化为txt文件
from pdfminer.pdfinterp import PDFPageInterpreter,PDFResourceManager
from pdfminer.converter import TextConverter,PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfdevice import PDFDevice
from pdfminer.pdfpage import PDFPage
# 获取pdf文档
fp = open('exam.pdf','rb')
# 创建一个与文档相关的解释器
parser = PDFParser(fp)
# pdf文档的对象,与解释器连接起来
doc = PDFDocument(parser=parser)
parser.set_document(doc=doc)
# 如果是加密pdf,则输入密码
# doc._initialize_password()
# 创建pdf资源管理器
reso