PDF数据提取 PyMuPDF的基本运用方法

PDF解析的意义

 解析PDF的意义在于能够将PDF文档中的内容进行结构化处理`在这里插入代码片`和提取,使得其中的信息能够被计算机系统理解和利用。这种能力使得PDF文档可以被用于自动化的数据分析、信息检索、文本挖掘以及其他各种信息管理和处理任务中,极大地提高了信息的利用效率和数据处理的精确性。
 PDF解析在各领域运用广泛,以下是提取PDF数据的基本操作。

加载PDF文件

# pdf_file 需要加载的文件名
doc = fitz.open(pdf_file)

保存PDF文件

# new_path 要保存到的文件名
doc.save(new_path)

获取PDF文件总页数

# new_path 要保存到的文件名
 total_pages = doc.page_count

加载第page_number页的内容

# page_number 页数
page = doc.load_page(page_number)

获取页面上的文本块

# new_path 要保存到的文件名
text_blocks = page.get_text("dict")["blocks"]

获取单个文本块的坐标

# text_blocks 获取到的文本块
# field_name 你需要获取坐标的文本名
def get_field_coordinates( text_blocks, field_name: str):
        coordinate = ''
        for block in text_blocks:
            try:
                for lines in block['lines']:
                    for span in lines['spans']:
                        if field_name in span['text']:
                            coordinate = span['bbox']
            except:
                continue
        return coordinate

获取文本行的坐标 是一行数据的坐标(左上角和右下角)

# text_blocks 获取到的文本块
# field_name 你需要获取坐标的文本名
def get_field_coordinates_frame(text_blocks, field_name: str):
        coordinate = ''
        for block in text_blocks:
            bbox = block['bbox']
            try:
                for lines in block['lines']:
                    for span in lines['spans']:
                        if span['text'] == field_name:
                            coordinate = bbox
            except:
                continue
        return coordinate
  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值