从研招网爬取招生目录

工具:火车采集器、八爪鱼、jupyter notebook、Excel

过程略显繁琐,刚入门不了解工具的使用,应该有更好的方法
这里仅仅提供自己的一种思路,适合编程小白

  1. 手动收集网址(第一级网址),研招网由于是使用表单对数据进行筛选,不同表单查询出来的数据不一样,我们不需要所有数据,根据域名规则,选择需要爬取的网址。主要信息有 院校、专业,你打开一个网址可以看到上面的区别。只需要更改为你需要爬取的就行。或者打开网页后直接复制粘贴,这里我选择不同的学校,35所985院校,其他的信息一样,所以一共有35个一级网址。
  2. 用火车采集器收集二级网址,火车采集器的特点是速度快,缺点是结果不能直接转换为 Excel ,而且不是可视化,对于新手来说上手有些难,所以用来爬取二级网址。
  3. 用 Python 将网址补全,由于所有的网址只有一个 ID 不同,爬取出来的二级网址也只是ID ,因此需要做一个补全。
  4. 利用补全的网址爬取内容,使用八爪鱼爬取内容的好处是,有可视化编辑的页面,方便我们查看到需要爬取的内容,而且可以转化为 Excel 支持的格式,方便我们后期做数据汇总,缺点是爬取的效率太慢,有时候可能需要爬取一两个小时。本来上述工作都能够使用八爪鱼完成,是因为太慢的才使用 火车采集器 来爬取二级网址,可以节省一部分时间。
  5. 后期实践表明,用八爪鱼跟网络有很大关系,卡住的时候会很慢。跟爬取规则可能关系不打。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值