PDF数据提取 PyMuPDF的基本运用方法

过往码农

于 2024-07-29 09:44:24 发布

阅读量188

点赞数 3

文章标签： pdf python 开发语言

本文链接：https://blog.csdn.net/qq_63730939/article/details/140762660

版权

PDF解析的意义

 解析PDF的意义在于能够将PDF文档中的内容进行结构化处理`在这里插入代码片`和提取，使得其中的信息能够被计算机系统理解和利用。这种能力使得PDF文档可以被用于自动化的数据分析、信息检索、文本挖掘以及其他各种信息管理和处理任务中，极大地提高了信息的利用效率和数据处理的精确性。
 PDF解析在各领域运用广泛，以下是提取PDF数据的基本操作。

加载PDF文件

# pdf_file 需要加载的文件名
doc = fitz.open(pdf_file)

保存PDF文件

# new_path 要保存到的文件名
doc.save(new_path)

获取PDF文件总页数

# new_path 要保存到的文件名
 total_pages = doc.page_count

加载第page_number页的内容

# page_number 页数
page = doc.load_page(page_number)

获取页面上的文本块

# new_path 要保存到的文件名
text_blocks = page.get_text("dict")["blocks"]

获取单个文本块的坐标

# text_blocks 获取到的文本块
# field_name 你需要获取坐标的文本名
def get_field_coordinates( text_blocks, field_name: str):
        coordinate = ''
        for block in text_blocks:
            try:
                for lines in block['lines']:
                    for span in lines['spans']:
                        if field_name in span['text']:
                            coordinate = span['bbox']
            except:
                continue
        return coordinate

获取文本行的坐标是一行数据的坐标（左上角和右下角）

# text_blocks 获取到的文本块
# field_name 你需要获取坐标的文本名
def get_field_coordinates_frame(text_blocks, field_name: str):
        coordinate = ''
        for block in text_blocks:
            bbox = block['bbox']
            try:
                for lines in block['lines']:
                    for span in lines['spans']:
                        if span['text'] == field_name:
                            coordinate = bbox
            except:
                continue
        return coordinate