新版方正教务系统爬虫

最新推荐文章于 2024-09-26 19:29:41 发布

Treasure_zhou

最新推荐文章于 2024-09-26 19:29:41 发布

阅读量4.3k

点赞数 3

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/treasure_zhou/article/details/72843375

版权

本文详细介绍了如何使用Python爬虫模拟登录新版方正教务系统，包括GET和POST请求的基本原理，模拟登录过程，获取个人信息及成绩的方法。通过分析登录URL、cookie管理和抓包工具，实现了动态网页数据的抓取。最后，文中提到成绩和其他信息的获取方式，整体展示了爬虫在教务系统数据获取中的应用。

摘要由CSDN通过智能技术生成

新版方正教务系统爬虫

技术	解释
Python	2.7
BeautifulSoup	4.X
Pycharm	2017
Firefox	…
Firebug	…
新版教务处地址	218.199.228.43

一、基本原理

GET请求

import urllib2
# 确定要访问的页面地址
url = 'http://****?a=1&b=2'
# 构造 request 请求
request = urllib2.Request(url)
# 返回 response 响应
response = urllib2.urlopen(request)
# 打印输出结果 html页面
result = response.read()
print result

POST请求

import urllib
import urllib2

data={
    username = 'your username'
    passwd = 'your password'
}
# 确定登录页面 -- 根据请求确定
url = 'http://******'
# 确定请求头 -- request 的请求头信息请参考 http解析
headers = {
    'User-Agent':...
    'Cookie':...
    'Referer':...
}
encoded_data = urllib.urlencode(data)
request = urllib2.Request(url=url, data=encoded_data, headers=headers)
response = urllib2.urlopen(request)
result = response.read()
print result

二、模拟登录

获得登录url

教务处首页

根据地址栏的url进行登录，发现并不能成功，总是返回登录界面。使用Firebug进行抓包分析。

抓包分析

发现真正的登陆url为 http://218.197.80.13/xtgl/login_login.html。
并且登录会对cookie进行检查，选择 cookielib.CookieJar() 进行cookie操作，具体代码

def __init__(self):
    # 通过登录后获取 cookie
    self.cookie = ''
    # 获得模拟登陆后的url
    self.res_url = ''
    # 设置登录成功后的请求头中的Referer

最低0.47元/天解锁文章

Treasure_zhou

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录