[Python]网络爬虫（十）：一个爬虫的诞生全过程（以山东大学绩点运算为例）

原创

于 2013-07-12 13:46:47 发布 · 9.5w 阅读

·

67

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文通过Python实现模拟登录山东大学成绩查询系统，抓取并计算绩点。详细介绍了使用HttpFox插件分析网络请求，理解POST数据和Cookie，以及如何构造请求并使用正则表达式提取所需信息。

先来说一下我们学校的网站：

http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html

查询成绩需要登录，然后显示各学科成绩，但是只显示成绩而没有绩点，也就是加权平均分。

显然这样手动计算绩点是一件非常麻烦的事情。所以我们可以用python做一个爬虫来解决这个问题。

1.决战前夜

先来准备一下工具：HttpFox插件。

这是一款http协议分析插件，分析页面请求和响应的时间、内容、以及浏览器用到的COOKIE等。

以我为例，安装在火狐上即可，效果如图：

可以非常直观的查看相应的信息。

点击start是开始检测，点击stop暂停检测，点击clear清除内容。

一般在使用之前，点击stop暂停，然后点击clear清屏，确保看到的是访问当前页面获得的数据。

2.深入敌后

下面就去山东大学的成绩查询网站，看一看在登录的时候，到底发送了那些信息。

先来到登录页面，把httpfox打开，clear之后，点击start开启检测：

输入完了个人信息，确保httpfox处于开启状态，然后点击确定提交信息，实现登录。

这个时候可以看到，httpfox检测到了三条信息：

这时点击stop键，确保捕获到的是访问该页面之后反馈的数据，以便我们做爬虫的时候模拟登陆使用。

3.庖丁解牛

乍一看我们拿到了三个数据，两个是GET的一个是POST的，但是它们到底是什么，应该怎么用，我们还一无所知。

所以，我们需要挨个查看一下捕获到的内容。

先看POST的信息：

既然是POST的信息，我们就直接看PostData即可。

可以看到一共POST两个数据，stuid和pwd。

并且从Type的Redirect to可以看出，POST完毕之后跳转到了bks_login2.loginmessage页面。</

最低0.47元/天解锁文章

42 条评论

天之梵 2018.07.07
写得非常清晰，简单易懂，终于明白了什么爬虫是怎么一回事了。给你

大闸蟹小龙虾 2017.07.06
刚刚接触爬虫，把楼主的python爬虫1~10都看了，这是我看过最好的爬虫文章，如果不回帖，良心过不去。楼主辛苦了，谢谢楼主。

Anthony_azy 2017.04.22
对我来说，程序是很容易懂的，但是在使用调bug工具这方面还是很晕

谦虚的海绵 2017.04.18
哈哈哈哈哈楼主你们学校用了清华的界面好好笑

谦虚的海绵 2017.04.18
楼主你们学校用的清华大学的界面好好笑哈哈哈哈哈

Dokio 2017.02.18
这篇博文写得太棒了，感觉像看小说一样刺激~而且还都看懂了。

yy130925 2016.12.09
刚刚接触，求python的编写软件，邮箱15069003050@163.com或者1546302012@q，q.com，谢谢博主！

yy130925 2016.12.09
刚刚接触，求python的编写软件，邮箱15069003050@163.com或者1546302012@qq.com，谢谢博主！

love_life_love_lover 2016.10.27
[code=plain] [/code]

Ripo_za 2016.10.17
请问我做的第一个例子，得出的cookie是<script>window.top.location.href="/index_jg.jsp"</script>啊

评论 42

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。