python3将PDF转化为txt文件

最新推荐文章于 2024-08-04 01:01:29 发布

Erika1203

最新推荐文章于 2024-08-04 01:01:29 发布

阅读量7.7k

点赞数 3

文章标签： python

本文链接：https://blog.csdn.net/weixin_43257951/article/details/84258861

版权

在Python3.6环境中，通过安装pdfminer.six库，可以实现将PDF文件转换为TXT文件。参照相关资源，执行特定代码即可完成转换。

摘要由CSDN通过智能技术生成

python3将PDF转化为txt文件
参考：
（1）https://github.com/pdfminer/pdfminer.six
（2）https://zhuanlan.zhihu.com/p/31017504

我在python3.6环境下pip install pdfminer.six，然后执行以下代码，就可以将pdf文件转化为txt文件

from pdfminer.pdfinterp import PDFPageInterpreter,PDFResourceManager
from pdfminer.converter import TextConverter,PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfdevice import PDFDevice
from pdfminer.pdfpage import PDFPage

# 获取pdf文档
fp = open('exam.pdf','rb')

# 创建一个与文档相关的解释器
parser = PDFParser(fp)

# pdf文档的对象，与解释器连接起来
doc = PDFDocument(parser=parser)
parser.set_document(doc=doc)

# 如果是加密pdf，则输入密码
# doc._initialize_password()

# 创建pdf资源管理器
reso