新版方正教务系统爬虫

本文详细介绍了如何使用Python爬虫模拟登录新版方正教务系统,包括GET和POST请求的基本原理,模拟登录过程,获取个人信息及成绩的方法。通过分析登录URL、cookie管理和抓包工具,实现了动态网页数据的抓取。最后,文中提到成绩和其他信息的获取方式,整体展示了爬虫在教务系统数据获取中的应用。
摘要由CSDN通过智能技术生成

新版方正教务系统爬虫

技术 解释
Python 2.7
BeautifulSoup 4.X
Pycharm 2017
Firefox
Firebug
新版教务处地址 218.199.228.43

一、基本原理

GET请求

import urllib2
# 确定要访问的页面地址
url = 'http://****?a=1&b=2'
# 构造 request 请求
request = urllib2.Request(url)
# 返回 response 响应
response = urllib2.urlopen(request)
# 打印输出结果 html页面
result = response.read()
print result

POST请求

import urllib
import urllib2

data={
    username = 'your username'
    passwd = 'your password'
}
# 确定登录页面 -- 根据请求确定
url = 'http://******'
# 确定请求头 -- request 的请求头信息请参考 http解析
headers = {
    'User-Agent':...
    'Cookie':...
    'Referer':...
}
encoded_data = urllib.urlencode(data)
request = urllib2.Request(url=url, data=encoded_data, headers=headers)
response = urllib2.urlopen(request)
result = response.read()
print result

二、模拟登录

获得登录url

教务处首页

根据地址栏的url进行登录,发现并不能成功,总是返回登录界面。使用Firebug进行抓包分析。

抓包分析

发现真正的登陆url为 http://218.197.80.13/xtgl/login_login.html
并且登录会对cookie进行检查,选择 cookielib.CookieJar() 进行cookie操作,具体代码

def __init__(self):
    # 通过登录后获取 cookie
    self.cookie = ''
    # 获得模拟登陆后的url
    self.res_url = ''
    # 设置登录成功后的请求头中的Referer
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值