python 读取pdf 两栏_python 读取pdf

最新推荐文章于 2024-07-22 20:26:49 发布

托卡马克之冠mkq

最新推荐文章于 2024-07-22 20:26:49 发布

阅读量1k

点赞数

文章标签： python 读取pdf 两栏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28944305/article/details/114402784

版权

本文介绍了如何使用Python的pdfminer库从PDF文件中提取文本，特别是处理具有两栏布局的PDF。通过PDFResourceManager、PDFPageInterpreter和PDFPageAggregator等工具，实现了将PDF转换为文本的流程。示例代码展示了两种不同的方法，可以将PDF内容保存到.txt文件中。

摘要由CSDN通过智能技术生成

# #-*- coding: UTF-8 -*-

# -*- coding:utf-8 -*-

##提取pdf文件中的文字

importtime,os.path,requests,re

time1=time.time()

frompdfminer.pdfinterp importPDFResourceManager, PDFPageInterpreter

frompdfminer.converter importPDFPageAggregator

frompdfminer.layout importLAParams,LTTextBoxHorizontal

frompdfminer.pdfpage importPDFTextExtractionNotAllowed,PDFPage

frompdfminer.pdfparser importPDFParser

frompdfminer.pdfdocument importPDFDocument

classCPdf2TxtManager():

defchangePdfToText(self, filePath):

# 以二进制读模式打开

file = open(path, 'rb')

#用文件对象来创建一个pdf文档分析器

praser = PDFParser(file)

# 创建一个PDF文档对象存储文档结构,提供密码初始化，没有就不用传该参数

doc = PDFDocument(praser, password='')

##检查文件是否允许文本提取

if notdoc.is_extractable:

raisePDFTextExtractionNotAllowed

# 创建PD

最低0.47元/天解锁文章

托卡马克之冠mkq

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 读取pdf 两栏_python 读取pdf

# #-*- coding: UTF-8 -*-# -*- coding:utf-8 -*-##提取pdf文件中的文字importtime,os.path,requests,retime1=time.time()frompdfminer.pdfinterp importPDFResourceManager, PDFPageInterpreterfrompdfminer.converter impo...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。