python解析pdf pdfigure,数据分析入门——python提取PDF文本内容

最新推荐文章于 2024-03-24 06:23:49 发布

weixin_31143391

最新推荐文章于 2024-03-24 06:23:49 发布

阅读量704

点赞数 1

文章标签： python解析pdf pdfigure

说真的，从PDF里面搜索关键字并提取上下文真的是个噩梦，PDF是个面向打印的文档格式，从里面抓数据太痛苦了，搞了一天已经想吐了。不过我还是沉淀了一点点东西。

python解析PDF文档大致有以下几个库：

PDFMiner

pdfplumer

ta

我们主要是提取文本内容，所以推荐使用pdfminer。

安装

默认使用python3.7的环境，如果是2.7的请酌情处理。

pip install pdfminer

pip install pdfminer3k

pip install pdfminer.six

可能会用到的的相关类：

PDFParser: 从一个文件中获取数据。

PDFDocument: 保存获取的数据，和PDFParser是相互关联的。

PDFPageInterpreter: 处理页面内容。

PDFDevice: 将其翻译成你需要的格式。

PDFResourceManager: 用于存储共享资源，如字体或图像。

准备

这里有一个很重要的关于PDF文档结构的知识，有助于你用代码筛选出你想要的东西：

35a0d30b1085

LTPage :表示整个页。可能会含有LTTextBox，LTFigure，LTImage，LTRect，LTCurve和LTLine子对象。

LTTextBox:表示一组文本块可能包含在一个矩形区域。注意此box是由几何分析中创

最低0.47元/天解锁文章

weixin_31143391

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
python解析pdf pdfigure,数据分析入门——python提取PDF文本内容

说真的，从PDF里面搜索关键字并提取上下文真的是个噩梦，PDF是个面向打印的文档格式，从里面抓数据太痛苦了，搞了一天已经想吐了。不过我还是沉淀了一点点东西。python解析PDF文档大致有以下几个库：PDFMinerpdfplumerta我们主要是提取文本内容，所以推荐使用pdfminer。安装默认使用python3.7的环境，如果是2.7的请酌情处理。pip install pdfminerp...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。