使用python读取pdf文件转换成txt文件

最新推荐文章于 2024-07-05 18:32:27 发布

liuhaiguang2012

最新推荐文章于 2024-07-05 18:32:27 发布

阅读量2.7k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/liuhaiguang2012/article/details/82765357

版权

"""
pip install pdfminer3k
"""

import sys
import importlib
importlib.reload(sys)

from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

'''
解析pdf 文本，保存到txt文件中
'''
path = r'F:\1.pdf'
def parse():
fp = open(path, 'rb') # 以二进制读模式打开
#用文件对象来创建一个pdf文档分析器
praser = PDFParser(fp)
# 创建一个PDF文档
doc = PDFDocument()
# 连接分析器与文档对象
praser.set_document(doc)
doc.set_parser(praser)
# 提供初始化密码
# 如果没有密码就创建一个空的字符串
doc.initialize()

# 检测文档是否提供txt转换，不提供就忽略
if not do

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

liuhaiguang2012

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
使用python读取pdf文件转换成txt文件

"""pip install pdfminer3k"""import sysimport importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser,PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterp...
复制链接

扫一扫