python txt文件报文分析_python下解析PDF文件

最新推荐文章于 2024-04-17 19:14:59 发布

weixin_39733232

最新推荐文章于 2024-04-17 19:14:59 发布

阅读量184

点赞数

文章标签： python txt文件报文分析

import importlib

import sys

importlib.reload(sys)

from pdfminer.pdfparser import PDFParser, PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import * # 导入所有类型可以解析

#LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等想要获取文本就获得对象的text属性

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

'''

解析pdf 文本，保存到txt文件中

'''

path = '报文分析.pdf'

def parse1():

fp = open(path, 'rb') # 以二进制读模式打开

# 用文件对象来创建一个pdf文档分析器

praser = PDFParser(fp)

# 创建一个PDF文档

doc = PDFDocument()

# 连接分析器与文档对象

praser.set_document(doc)

doc.set_parser(praser)

# 提供初始化密码

# 如果没有密码就创建一个空的字符串

doc.initialize()

# 检测文档是否提供txt转换，不提供就忽略

if not doc.is_extractable:

raise PDFTextExtractionNotAllowed

else:

# 创建PDf 资源管理器来管理共享资源

rsrcmgr = PDFResourceManager()

# 创建一个PDF设备对象

laparams = LAParams()

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

# 创建一个PDF解释器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

with open('22.txt', 'w') as f:

f.seek(0)

f.truncate() # 清空

# 循环遍历列表，每次处理一个page的内容

for page in doc.get_pages(): # doc.get_pages() 获取page列表

interpreter.process_page(page)

# 接受该页面的LTPage对象

layout = device.get_result()

# 这里layout是一个LTPage对象里面存放着这个page解析出的各种对象一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等想要获取文本就获得对象的text属性，

for x in layout:

if (isinstance(x, LTTextBoxHorizontal)):

results = x.get_text()

print(results)

f.write(results + '\n')

if __name__ == '__main__':

parse1()

weixin_39733232

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python txt文件报文分析_python下解析PDF文件

import importlibimport sysimportlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.converter import ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。