Windows环境下pdf2htmlEX+HTMLParser完成对pdf中数据的提取

最新推荐文章于 2024-05-08 09:19:26 发布

Jack_zhuiyi

最新推荐文章于 2024-05-08 09:19:26 发布

阅读量2k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/Jack_zhuiyi/article/details/79404253

版权

首先要将pdf中表格数据提取，是比较难以写的，于是想到可以将pdf转成html，再用python中htmlparser爬取html文本中的数据，这其中的方法相对而言较为简单。

首先是使用pdf2htmlEX，下载好后压缩文件解压后，可看到其中有pdf2htmlEX.exe文件，在命令行中输入pdf2htmlEX.exe可看到其后面可以添加的各种参数以及用法，我们输入pdf2htmlEX -f 2 example.pdf example.html，可将example.pdf从第二页开始到最后一页转为example.html文件。

接着上python代码，利用全局变量，控制数据的爬取，因为我要爬取的是表格数据，所以只需要一个学校名字，以及两个数字，一个百分数。

from  html.parser import HTMLParser
import string
htmlFile = open(r'D:\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data\2013_table_wrapperqingnian.html','r',encoding='UTF-8')
content = htmlFile.read()
lists = [
       '安徽中医药大学', '北京中医药大学', '辽宁中医药大学', '长春中医药大学', '黑龙江中医药大学', '天津中医药大学',
       '南京中医药大学', '上海中医药大学', '山东中医药大学', '山西中医学院', '浙江中医药大学', '江西中医药大学',
       '福

最低0.47元/天解锁文章

Jack_zhuiyi

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Windows环境下pdf2htmlEX+HTMLParser完成对pdf中数据的提取

首先要将pdf中表格数据提取，是比较难以写的，于是想到可以将pdf转成html，再用python中htmlparser爬取html文本中的数据，这其中的方法相对而言较为简单。首先是使用pdf2htmlEX，下载好后压缩文件解压后，可看到其中有pdf2htmlEX.exe文件，在命令行中输入pdf2htmlEX.exe可看到其后面可以添加的各种参数以及用法，我们输入pdf2htmlEX -f 2 e...
复制链接

扫一扫