本文实例为大家分享了python实现pdf转word/txt,供大家参考,具体内容如下
依赖包:pdfminer3k
可以通过pip安装;也可以到官网下载,解压,进入文件夹,输入命令setup.py install安装软件。
源代码:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
'''''
解析pdf文件,获取文件中包含的各种对象
'''
# 解析pdf文件函数
def parse(pdf_path):
fp = open(pdf_path, 'rb') # 以二进制读模式打开
# 用文件对象来创建一个pdf文档分析器
parser = PDFParser(fp)
# 创建一个PDF文档
doc = PDFDocum