Python100个库分享第24个—PDFMiner(办公篇-提取PDF内容)

专栏导读

文章链接直达
Python提取PDF中的图片并保存https://blog.csdn.net/weixin_42636075/article/details/138930606
Python提取PDF中的表格写入Excelhttps://blog.csdn.net/weixin_42636075/article/details/137219634
Python—批量将word转pdfhttps://blog.csdn.net/weixin_42636075/article/details/136410808
Python-pdfplumber读取PDF所有内容并自行提取指定内容https://blog.csdn.net/weixin_42636075/article/details/128655337
  • 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题,解放您的双手

  • 🏳️‍🌈 博客主页:请点击——> 一晌小贪欢的博客主页求关注

  • 👍 该系列文章专栏:请点击——>Python办公自动化专栏求订阅

  • 🕷 此外还有爬虫专栏:请点击——>Python爬虫基础专栏求订阅

  • 📕 此外还有python基础专栏:请点击——>Python基础学习专栏求订阅

  • 文章作者技术和水平有限,如果文中出现错误,希望大家能指正🙏

  • ❤️ 欢迎各位佬关注! ❤️

库的介绍

  • PDFMiner是一个专门用于从PDF文档中提取信息的Python库。它设计用于处理复杂的PDF文件结构,包括文本抽取、布局分析以及元数据提取等。与其他一些PDF处理库不同,PDFMiner更专注于文本数据的精确提取,特别是对于含有表格、多列布局或者特殊字体的PDF文件,它能提供更为准确的解析结果。

主要功能

  • 文本抽取:能够从PDF中抽取文本内容,保持原文的结构和格式。

  • 布局分析:识别文本块、图像、表格等元素的位置和大小,有助于重建文档的视觉结构。

  • 字符识别:支持CID字体(用于东亚文字)和其他自定义字体的识别。

  • 元数据提取:获取PDF文档的元数据信息,如标题、作者、创建日期等。

  • 命令行工具:提供了一些命令行工具,便于直接从终端操作PDF文件。

库的安装

pip install pdfminer.six -i https://pypi.tuna.tsinghua.edu.cn/simple/

准备测试数据

  • 首先准备一个word文档转为pdf,word转pdf——>>在这篇文章:点我跳转

在这里插入图片描述


案例1:简单文本抽取

  • 代码

from pdfminer.high_level import extract_text

def extract_pdf_text(pdf_file):
    text = extract_text(pdf_file)
    print(text)

# 使用方法
extract_pdf_text('example.pdf')
  • 输出

在这里插入图片描述



案例2:详细解析并打印每一页内容

  • 代码

from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer

def parse_pages(pdf_file):
    for page_layout in extract_pages(pdf_file):
        for element in page_layout:
            if isinstance(element, LTTextContainer):
                print(element.get_text())

# 使用方法
parse_pages('example.pdf')
  • 输出

在这里插入图片描述



案例3:提取图片

  • PDFMiner库是一个强大的Python库,用于提取PDF文件中的文本和元数据,但它本身并不直接支持提取图片。要从PDF中提取图片,你可能需要结合使用其他库,如PyMuPDF(也称为fitz)

  • 具体代码在这一篇:点我跳转——Python提取PDF中的图片并保存



案例3:提取表格

  • PDFMiner库是一个强大的Python库,用于提取PDF文件中的文本和元数据,但它本身并不直接支持提取表格。要从PDF中提取表格,你可能需要结合使用其他库,如pdfplumber

  • 具体代码在这一篇:点我跳转——Python提取PDF中的表格写入Excel

注意事项

  • PDFMiner在处理大型或复杂PDF时可能会消耗较多资源和时间。

  • 对于有特殊编码或加密的PDF,可能需要额外的配置或处理步骤。

  • 在使用PDFMiner进行文本抽取时,根据需要可能要调整参数以优化提取效果,比如处理表格数据时,可能需要更细致地控制布局分析的逻辑。

  • 更多关于PDF的办公自动化知识点,欢迎订阅:

文章链接直达
Python提取PDF中的图片并保存https://blog.csdn.net/weixin_42636075/article/details/138930606
Python提取PDF中的表格写入Excelhttps://blog.csdn.net/weixin_42636075/article/details/137219634
Python—批量将word转pdfhttps://blog.csdn.net/weixin_42636075/article/details/136410808
Python-pdfplumber读取PDF所有内容并自行提取指定内容https://blog.csdn.net/weixin_42636075/article/details/128655337

总结

  • 希望对初学者有帮助

  • 致力于办公自动化的小小程序员一枚

  • 希望能得到大家的【一个免费关注】!感谢

  • 求个 🤞 关注 🤞

  • 此外还有办公自动化专栏,欢迎大家订阅:Python办公自动化专栏

  • 求个 ❤️ 喜欢 ❤️

  • 此外还有爬虫专栏,欢迎大家订阅:Python爬虫基础专栏

  • 求个 👍 收藏 👍

  • 此外还有Python基础专栏,欢迎大家订阅:Python基础学习专栏

  • 26
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一晌小贪欢

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值