python报错：cannot import name ‘PDFDocument‘ from ‘pdfminer.pdfparser‘ 解决方法

AnnyYoung

已于 2022-03-15 09:49:30 修改

阅读量2w

点赞数 19

分类专栏： FAQ 文章标签： python

于 2020-08-06 14:04:46 首次发布

本文链接：https://blog.csdn.net/weixin_34861344/article/details/107837875

版权

FAQ 专栏收录该内容

16 篇文章

订阅专栏

本文解决了使用PDFMiner库时遇到的导入错误问题，详细介绍了如何修改导入语句及调用方式，确保PDF文档解析过程顺利进行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

显示报错如下

from pdfminer.pdfparser import PDFParser, PDFDocument
ImportError: cannot import name 'PDFDocument' from 'pdfminer.pdfparser'

解决办法

1、修改模块导入方式

from pdfminer.pdfparser import PDFParser, PDFDocument:

改为：

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage

2、修改模块调用方式（2处）
1）PDFDocument

doc = PDFDocument()

改为

doc = PDFDocument(parser)

parser说明：

fp = open(pdf, 'rb')
# 用文件对象创建一个PDF文档分析器
parser = PDFParser(fp)

2）循环方式

for page in doc.get_pages():

改为

for page in PDFPage.create_pages(doc):

再次运行顺利，解决报错。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AnnyYoung

关注关注

19
点赞
踩
38

收藏

觉得还不错? 一键收藏
10
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【已解决】pdfplumber解析pdf报错：pdfminer.pdfdocument.PDFEncryptionError: Unknown filter: param={}param=%r“ %

c1007857613的专栏

12-22

203

已解决python中使用pdfplumber库解析pdf报错的问题，错误现象为： raisePDFEncryptionError("Unknown filter: param=%r" % param) pdfminer.pdfdocument.PDFEncryptionError: Unknown filter: param={}

ModuleNotFoundError: No module named 'pdfminer.pdfpage'

qq_33749437的博客

08-09

1万+

最开始输入 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from ...

10 条评论您还未登录，请先登录后发表或查看评论

python PDFMiner 处理pdf，保存文本及图片

兰兰的博客

05-11

4192

前言网上的资料意外地少，尤其是图片的处理，基本上都是官方文档，整了半天，记录一下。资料先放一下官方文档及翻译，建议看看官方文档。官方文档：https://euske.github.io/pdfminer/programming.html 翻译：https://blog.csdn.net/robolinux/article/details/43318229 安装我是python3，一开始装了一个pdfminer，装了一个pdfminer3k，但是使用时报错： ImportErr..

ImportError: cannot import name ‘process_pdf‘ from ‘pdfminer.pdfinterp‘错误完全解决

qq_45889931的博客

06-17

2715

import pdfminer 出问题

ModuleNotFoundError: No module named ‘pdfminer.pdfexceptions‘

热门推荐

MrLevo520的博客

08-06

3万+

Python 2.7 IDE Pycharm 5.0.3 pdfminer 20140328解决问题和测试多个版本读pdf 解决问题在进行PDF读取的时候，遇到pdfminer ImportError: cannot import name process_pdf问题，各处搜索之后，除了stackoverflow的how to use pdfminer有比较好的总结之外，还是得看官方手册啊，这句

ImportError: cannot import name ‘open_filename‘ from ‘pdfminer.utils‘已搞定

weixin_46124467的博客

03-14

2718

ImportError: cannot import name 'open_filename' from 'pdfminer.utils'已搞定

pyPdf: cannot import name ‘PdfFileReader’ from ‘pdf’

WMIII的博客

01-19

2469

pyPdf导入错误：cannot import name 'PdfFileReader' from 'pdf'解决方法解决方法将 import pyPdf 换成 import PyPDF2 即可解决。同时将代码中所有的pyPdf替换成PyPDF2. pip3 install PyPDF2 （其实我不想水这么短的文章的但是CSDN上并没有这个问题的解决方法所以我就发上来了） ...

mac ImportError cannot import name process_pdf from pdfminer pdfinterp

Learning from the mistakes

06-13

2994

今天在使用pdfminer的时候出现了下面的错误： ImportError: cannot import name 'process_pdf' from 'pdfminer.pdfinterp' 然后明明安装了pdfminer，却导入不进来。解决方法 pip uninstall PDFMiner3K pip uninstall PDFMiner pip install pdfminer3k 然后就行了，主要思路就是先卸载干净，再安装下面是我的关于pdf的东西，仅供参考，我的是mac.

importerror: cannot import name 'pdfdocument' from 'pdfminer.pdfparser'

04-10

这个错误是导入pdfminer.pdfparser模块中的pdfdocument名称失败。可能的原因是pdfminer版本不兼容，也可能是代码中有语法错误。需要检查代码和pdfminer版本以解决这个错误。

from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAParams, LTTextBoxHorizontal from pdfminer.pdfpage import PDFPage # 打开 PDF 文件 fp = open('x1/2023凯程333教育综合应试解析-外国教育史.pdf', 'rb') # 创建 PDF 解析器 parser = PDFParser(fp) # 创建 PDF 文档对象 document = PDFDocument(parser) # 获取页面布局参数 laparams = LAParams() # 创建 PDF 资源管理器 rsrcmgr = PDFResourceManager() # 创建聚合器对象 device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 创建 PDF 解释器 interpreter = PDFPageInterpreter(rsrcmgr, device) # 处理每一页 PDF 页面 for page in PDFPage.create_pages(document): interpreter.process_page(page) # 获取页面布局 layout = device.get_result() # 提取每一页的文本内容 for x in layout: if isinstance(x, LTTextBoxHorizontal): print(x.get_text().strip()) # 关闭 PDF 文件 fp.close()上述代码保存输出结果为TXT

05-27

ImportError cannot import name process_pdf from pdfminer pdfinterp

limtyty的博客

09-15

2512

在运行pdf转word的python代码时，遇到 ImportError: cannot import name 'process_pdf' from 'pdfminer.pdfinterp' 可以先卸载PDFMiner3K和PDFMiner，然后重新安装PDFMiner即可 pip uninstall PDFMiner3K pip uninstall PDFMiner pip install pdfminer3k 转自 mac ImportError cannot import name pr

python pdfminer PDFTextExtractionNotAllowed 找不到

Primer5

05-06

3950

项目中之前一直都是如下导包，未曾改动过，在此之前都是好好的能够运行，直到今早… 很早的来到公司（六点四十的闹钟没关，七点到了公司），开心的打开 Pycharm ，点击运行~~~~竟然报错了在运行之前我下载了 tabula-py依赖，想要实现 PDF 提取表格的需求，开始怀疑是不是这个库导致的冲突一番卸载（tabula-py）、重启（PyCharm 程序员：重启能够解决 99% 问题的直觉，肯定不是我的问题，一定是环境问题，之前还好好的，怎么突然就不行了呢）、更新（pip install --upgr.

导入 from pdfminer.pdfinterp import process_pdf 错误

weixin_34209406的博客

11-01

2991

>>> from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter>>> from pdfminer.pdfinterp import process_pdfTraceback (most recent call last): File "<stdin>", line ...

pdfminer import报错解决方法

weixin_34059951的博客

04-27

1万+

from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice ImportError: cannot import nam...

报错：ImportError: cannot import name ‘Document‘

fencecat的博客

03-21

3065

解决运行的 python-docx 脚本时的报错：ImportError: cannot import name 'Document'

ImportError: cannot import name process_pdf 解决方法

weixin_33836874的博客

05-19

5599

2019独角兽企业重金招聘Python工程师标准>>> ...

pdfminer报错的问题

weixin_37281967的博客

01-26

1746

先用Pip安装了pdfminer，又安装了pdfminer3k，结果 import pdfminer没问题而 from pdfminer.pdfparser import PDFParser报错试了几种方法，又卸了之后再装还是不行。检查了下，在卸载两个模块后仍然在python的site-packages文件夹下残存pdfminer文件夹，删除后再用pip安装pdfminer...

ImportError: cannot import name 'PDFDocument'

03-20

<think>好的，我现在需要解决用户遇到的Python导入错误：ImportError: cannot import name 'PDFDocument' from 'pdfminer.pdfparser'。首先，我要回忆一下pdfminer库的相关知识。记得pdfminer有不同的版本，特别是Python 2和Python 3的兼容性问题。用户可能安装的是旧版或者新版，导致模块结构不同。根据用户提供的引用内容，特别是引用[3]提到PDFDocument导入问题，解决方法可能与版本有关。比如，pdfminer3k是适用于Python 3的分支，而原pdfminer可能不支持Python 3。所以用户可能需要安装正确的库版本。接下来，用户可能错误地使用了导入语句。在旧版本中，PDFDocument可能位于pdfminer.pdfparser模块，而新版本可能调整了模块结构。例如，引用[3]的解决办法指出需要检查导入方式是否正确，可能需要从其他子模块导入，或者使用新的API。然后，安装问题也是一个可能的原因。用户是否安装了pdfminer3k而不是pdfminer？引用[5]提到使用pip install pdfminer3k来安装适用于Python 3的版本。如果用户安装了错误的包，或者版本不兼容，就会导致导入错误。另外，代码中的导入语句可能需要调整。例如，新版本的pdfminer.six可能将PDFDocument放在pdfminer.pdfdocument模块中。或者，可能需要使用不同的类和方法，比如PDFParser和PDFDocument的实例化方式是否改变。总结可能的解决步骤：首先检查安装的库是否正确，卸载旧版本，安装pdfminer3k或pdfminer.six；然后检查导入语句是否符合当前版本的模块结构；最后，参考官方文档或更新后的示例代码调整代码逻辑。同时，用户提供的引用[4]提到API变化，比如process_pdf被PDFPage.get_pages替代，说明模块结构可能发生了变化，需要调整导入路径。因此，用户需要确认当前使用的pdfminer版本，并查找对应的文档，调整导入语句和代码实现。</think>### 解决 ImportError: cannot import name 'PDFDocument' 的方法 #### 1. **检查库版本与安装方式** - **问题根源**：`pdfminer`在Python 3中有两个主要分支：`pdfminer`（旧版，仅支持Python 2）和`pdfminer3k`/`pdfminer.six`（支持Python 3）。若安装了错误的版本，会导致导入失败。 - **解决方法**： 1. 卸载原有库： ```bash pip uninstall pdfminer ``` 2. 安装兼容Python 3的版本： ```bash pip install pdfminer3k # 或 pdfminer.six ``` 引用[5]提到安装`pdfminer3k`是Python 3的推荐方式[^5]。 #### 2. **调整导入语句** - **新版本路径变化**：在较新的`pdfminer.six`中，`PDFDocument`可能不再位于`pdfparser`子模块，而是需要通过其他方式初始化。 - **正确导入示例**： ```python from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument ``` 若仍报错，可能需要使用以下方式： ```python from pdfminer.pdfdocument import PDFDocument ``` #### 3. **使用新版API的完整示例** ```python from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfpage import PDFPage with open("example.pdf", "rb") as file: parser = PDFParser(file) document = PDFDocument(parser) # 直接通过解析器初始化 # 进一步处理文档内容... ``` 此方式通过`PDFParser`生成`document`对象，而非直接导入[^3][^4]。 #### 4. **验证代码兼容性** - 如果代码基于旧版`pdfminer`编写，需参考新版文档调整逻辑。例如： - 解析PDF文本的流程可能从`process_pdf`改为`PDFPage.get_pages()`[^4]。 - 使用`PDFResourceManager`和`PDFPageInterpreter`提取内容。 --- ###