Python100个库分享第24个—PDFMiner(办公篇-提取PDF内容)

一晌小贪欢

已于 2024-05-16 10:19:15 修改

阅读量837

点赞数 26

分类专栏： Python100个库分享文章标签： pdf python python库学习 python办公 python学习

于 2024-05-16 10:00:00 首次发布

本文链接：https://blog.csdn.net/weixin_42636075/article/details/138918126

版权

Python100个库分享专栏收录该内容

27 篇文章 1 订阅

订阅专栏

专栏导读

文章	链接直达
Python提取PDF中的图片并保存	https://blog.csdn.net/weixin_42636075/article/details/138930606
Python提取PDF中的表格写入Excel	https://blog.csdn.net/weixin_42636075/article/details/137219634
Python—批量将word转pdf	https://blog.csdn.net/weixin_42636075/article/details/136410808
Python-pdfplumber读取PDF所有内容并自行提取指定内容	https://blog.csdn.net/weixin_42636075/article/details/128655337

🌸 欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手

🏳️‍🌈 博客主页：请点击——> 一晌小贪欢的博客主页求关注

👍 该系列文章专栏：请点击——>Python办公自动化专栏求订阅

🕷 此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅

📕 此外还有python基础专栏：请点击——>Python基础学习专栏求订阅

文章作者技术和水平有限，如果文中出现错误，希望大家能指正🙏

❤️ 欢迎各位佬关注！ ❤️

库的介绍

PDFMiner是一个专门用于从PDF文档中提取信息的Python库。它设计用于处理复杂的PDF文件结构，包括文本抽取、布局分析以及元数据提取等。与其他一些PDF处理库不同，PDFMiner更专注于文本数据的精确提取，特别是对于含有表格、多列布局或者特殊字体的PDF文件，它能提供更为准确的解析结果。

主要功能

文本抽取：能够从PDF中抽取文本内容，保持原文的结构和格式。
布局分析：识别文本块、图像、表格等元素的位置和大小，有助于重建文档的视觉结构。
字符识别：支持CID字体（用于东亚文字）和其他自定义字体的识别。
元数据提取：获取PDF文档的元数据信息，如标题、作者、创建日期等。
命令行工具：提供了一些命令行工具，便于直接从终端操作PDF文件。

库的安装

pip install pdfminer.six -i https://pypi.tuna.tsinghua.edu.cn/simple/

准备测试数据

首先准备一个word文档转为pdf，word转pdf——>>在这篇文章：点我跳转

在这里插入图片描述

案例1：简单文本抽取

代码

from pdfminer.high_level import extract_text

def extract_pdf_text(pdf_file):
    text = extract_text(pdf_file)
    print(text)

# 使用方法
extract_pdf_text('example.pdf')

输出

在这里插入图片描述

案例2：详细解析并打印每一页内容

代码

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer

def parse_pages(pdf_file):
    for page_layout in extract_pages(pdf_file):
        for element in page_layout:
            if isinstance(element, LTTextContainer):
                print(element.get_text())

# 使用方法
parse_pages('example.pdf')

输出

在这里插入图片描述

案例3：提取图片

PDFMiner库是一个强大的Python库，用于提取PDF文件中的文本和元数据，但它本身并不直接支持提取图片。要从PDF中提取图片，你可能需要结合使用其他库，如PyMuPDF（也称为fitz）
具体代码在这一篇：点我跳转——Python提取PDF中的图片并保存

案例3：提取表格

PDFMiner库是一个强大的Python库，用于提取PDF文件中的文本和元数据，但它本身并不直接支持提取表格。要从PDF中提取表格，你可能需要结合使用其他库，如pdfplumber
具体代码在这一篇：点我跳转——Python提取PDF中的表格写入Excel

注意事项

PDFMiner在处理大型或复杂PDF时可能会消耗较多资源和时间。

对于有特殊编码或加密的PDF，可能需要额外的配置或处理步骤。

在使用PDFMiner进行文本抽取时，根据需要可能要调整参数以优化提取效果，比如处理表格数据时，可能需要更细致地控制布局分析的逻辑。

更多关于PDF的办公自动化知识点，欢迎订阅：

文章	链接直达
Python提取PDF中的图片并保存	https://blog.csdn.net/weixin_42636075/article/details/138930606
Python提取PDF中的表格写入Excel	https://blog.csdn.net/weixin_42636075/article/details/137219634
Python—批量将word转pdf	https://blog.csdn.net/weixin_42636075/article/details/136410808
Python-pdfplumber读取PDF所有内容并自行提取指定内容	https://blog.csdn.net/weixin_42636075/article/details/128655337