我先说说如何正确安装这个模块!
pip3 install --upgrade setuptools
pip3 install pdfminer3k
这两个命令就可以了。
下方是安装的成功的截图,内容很多!分开截图!
Successfully installed setuptools-44.0.0
Successfully installed atomicwrites-1.3.0 attrs-19.3.0 colorama-0.4.3 more-itertools-8.0.2 packaging-20.0 pdfminer3k-1.3.1 pluggy-0.13.1 ply-3.11 py-1.8.1 pyparsing-2.4.6 pytest-5.3.2 six-1.13.0 wcwidth-0.1.8
*************************************************************************
以下是一些错误的安装方法。
pip3 install pdfminer
pip3 install pdfminer3k
**************************************************************************现在导入相关模块,测试下
没有任何提示,成功!
------------------------------------------------------------------------------
PDF格式不是一种规范格式. 尽管她被叫做"PDF文档", 但PDF并不像word或者html文档。PDF的表现更像一张图片。PDF更像是在一张纸的各个准确的位置上把内容都摆放出来。大部分情况下,没有逻辑结构,比如句子或段落,并且不能自适应页面大小的调整。PDFMiner尝试通过猜测它们的布局来重建它们的结构,但是不保证一定能工作。我知道这样很难看,但是,PDF确实不够规范。
由于PDF文件有如此大和复杂的结构,完整解析PDF文件很费时费力。好吧,大多数PDF工作中,很多模块是不需要加进来的。因此 PDFMiner 采用了一个懒惰分析的策略,就是只分析所需要的部分。解析的时候,至少需要2个核心类,PDFParser 和 PDFDocument。这两个模块配合其他模块来使用。
PDFParser 从文件中获取数据
PDFDocument 存储文档数据结构到内存中
PDFPageInterpreter 解析page内容
PDFDevice 把解析到的内容转化为你需要的东西
PDFResourceManager存储共享资源,例如字体或图片
下图显示了PDFMiner中各个类之间的关系。