利用Python提取PDF文件中的文本信息

最新推荐文章于 2025-03-08 10:00:23 发布

起不好名字就不起了

最新推荐文章于 2025-03-08 10:00:23 发布

阅读量2.5w

点赞数 28

分类专栏： Python 文章标签： python xpdf

本文链接：https://blog.csdn.net/qq_38017966/article/details/108696069

版权

本文介绍了使用Python进行PDF文本提取的五个库：PyPDF2、textract、Apache Tika、pdfPlumber和pdfminer。其中，pdfPlumber因为安装简单、提取精度高而被强烈推荐，其次是功能齐全但学习成本稍高的pdfminer。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何利用Python提取PDF文件中的文本信息

日常工作中我们经常会用到pdf格式的文件，大多数情况下是浏览或者编辑pdf信息，但有时候需要提取pdf中的文本，如果是单个文件的话还可以通过复制粘贴来直接将文本信息复制出来，但如果是要提取成本上千个pdf文件中的文本信息，有没有什么比较快捷的方式可以实现自动化提取呢？作为一个python爱好者，答案当然是想办法通过python代码实现pdf文本信息的批量自动化提取，这里介绍以下五个pdf操作库：PyPDF2, Textract, tika, pdfPlumber, pdfMiner，本文主要参考这个博客撰写而成：How to Extract Text from PDF

一、PyPDF2

推荐程度：★★★
pypi官网地址：PyPDF2
安装方法：pip install PyPDF2
工具包简介：

可以提取pdf内文档信息（标题、作者、…）
可以分割、合并pdf
可以对pdf文件进行加密或解密
…

这个库的优点是安装简便，但是虽然可以准确提取出文件内的文本信息，但会把一行文本内的每个单词打断成多行，甚至把完整的单词也切割开来，识别精度不是很高。
实例演示
代码示例：

import PyPDF2
fhandle = open(r'D:\examplepdf.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(fhandle)
pagehandle = pdfReader.getPage(0)
print(pagehandle.extractText(

最低0.47元/天解锁文章