环境:Python 2.7 + Django 1.8
名词介绍:
Python是一种面向对象,解释型计算机程序设计语言,具有丰富和强大的库。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。在这里就是通过爬虫把成绩网页抓取下来,然后再用正则表达式提取出来需要的信息。
Django是一个常用的python web框架,采用了MVC的框架模式,即模型M,视图V和控制器C,自带的功能比较多和全面,适合快速开发。
设计过程:
其实刚开始我只是学习在学习Python爬虫时跟随着教程写了一个可以查询自己学校成绩的代码,只是在命令行中显示出来成绩显得很不友好,后来想算学分积的话就要做一个图形化界面,然后就想到了做一个网页。
1.网络爬虫的实现:
相关教程:
这个爬虫也就是查询学分积的核心,一共包含四个部分:
1.模拟登陆到教学管理系统
2.抓取成绩界面
3.从里边提取出成绩信息
4.将成绩信息以每学科,每学期的形式进行整理
1.模拟登陆到教学管理系统
首先打开浏览器(我用的是Chrome浏览器),打开登陆界面,按F12进入开发者模式。
再点登陆,在Network窗口下点最上边的login.action,然后就可以看到Headers的详细信息
在这里可以看到请求的url,请求方式为POST,还有Request Headers,以及最重要的是下边的表单提交内容,学校的毕竟做的比较简陋,用的是明文的。然后在下边模拟登陆的过程中就要用到这两个数据username和password,关于encodePassword和session_locale:zh_CN,我发现加不加都没有影响,注意参数的名字也不能有误,要和上边的保持一致。
接下来就是要实现 模拟登陆了,就像登陆一样,目的都是为了让服务器能够识别用户的身份,进行session跟踪而储存在用户本地终端上的数据(通常经过加密),这里为了实现模拟登陆就要用到Python的urllib,urllib2,以及cookielib模块。urllib和urllib2主要用来执行各种HTTP请求,cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大,我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送,以此来实现模拟登录功能。这里相关模块的具体用法都不再具体说明,可以自己去搜相关的文档。学校的网站不用添加headers就可以直接登录了。
模拟登陆代码如下所示:
import urllib
import urllib2
import cookielib
import re
import string
import types
class NPU:
def __init__(self,name,passwd):
#登录URL
self.loginUrl = 'http://us.nwpu.edu.cn/eams/login.action'
#声明一个MozillaCookieJar对象实例来保存cookie,之后写入文件
self.cookies = cookielib.MozillaCookieJar('cookie.txt')
self.postdata = urllib.urlencode({
'username':name,
'password':passwd,
'encodedPassword':'',
'session_locale':'zh_CN',
})
#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
#handler = urllib2.HTTPCookieProcessor(cookie)
#通过handler来构建opener
#opener = urllib2.build_opener(