Windows环境下pdf2htmlEX+HTMLParser完成对pdf中数据的提取

首先要将pdf中表格数据提取,是比较难以写的,于是想到可以将pdf转成html,再用python中htmlparser爬取html文本中的数据,这其中的方法相对而言较为简单。

首先是使用pdf2htmlEX,下载好后压缩文件解压后,可看到其中有pdf2htmlEX.exe文件,在命令行中输入pdf2htmlEX.exe可看到其后面可以添加的各种参数以及用法,我们输入pdf2htmlEX -f 2 example.pdf example.html,可将example.pdf从第二页开始到最后一页转为example.html文件。

接着上python代码,利用全局变量,控制数据的爬取,因为我要爬取的是表格数据,所以只需要一个学校名字,以及两个数字,一个百分数。

from  html.parser import HTMLParser
import string
htmlFile = open(r'D:\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data\2013_table_wrapperqingnian.html','r',encoding='UTF-8')
content = htmlFile.read()
lists = [
       '安徽中医药大学', '北京中医药大学', '辽宁中医药大学', '长春中医药大学', '黑龙江中医药大学', '天津中医药大学',
       '南京中医药大学', '上海中医药大学', '山东中医药大学', '山西中医学院', '浙江中医药大学', '江西中医药大学',
       '福
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值