爬虫技术简析与实战

首先我们看看爬虫的定义:

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

也就是说,从网络上抓取数据的程序都可以称为是爬虫。一般来说,爬虫一般使用Python等脚本语言来编写,Java等高级语言不是说不能写,只是不适合,脚本语言本身语法简单,自带功能强大的库,编写爬虫这种小程序简单快捷。所以一般我们选用Python来写爬虫。

以上我们简单了解了爬虫的定义和使用的语言工具。接下来,我们开始用一个实际的例子来熟悉爬虫的实现。
华工的教务系统在选课的时候是最繁忙,也是经常崩溃的。原因就在于在一时间大量用户登录,服务器内存不足,无法处理这么多的请求。如果你厌倦了不停的点击刷新,提交的话,那么可以考虑用爬虫帮你自动选课。
既然有了这个念头,那么从哪里着手呢?直接写代码吗?肯定不是。要开发软件的时候直接上来就写代码的行为就是耍流氓。
第一步应该是分析选课的流程
- 登录教务系统
- 点击校公选课
- 查看所有的课程列表
- 选中要选的课程
- 提交

以上是选课的五个步骤。我们先来看看这五个步骤背后的技术实现。
在登录的时候,浏览器会发送一个post请求,附上账户密码,服务器验证通过之后,返回相应的页面。
这里有个地方要注意,就是我们如何保持登陆状态?一般来说,保持登陆状态,采取的方法无非是cookie和session。观察请求,我

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值