Python爬虫实战——模拟登录教务系统

最新推荐文章于 2024-04-20 21:48:38 发布

kelvinLLL

最新推荐文章于 2024-04-20 21:48:38 发布

阅读量2.3k

点赞数 2

分类专栏：爬虫 python 文章标签： python 爬虫 cookie 模拟登录

本文链接：https://blog.csdn.net/kelvinLLL/article/details/57407834

版权

python 同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

爬虫

9 篇文章 0 订阅

订阅专栏

之前都是爬静态页面，不用登录的，这次试试有登录的。

网页的登录主要是发送POST请求到服务器，得到响应后跳转到登录界面。每次登录，浏览器都会记录下cookie信息，在python中，可以用urllib，urllib2来获取cookie信息，然后利用cookie信息来模拟登录。当然还是得输入登录名和密码的。

先在浏览器上登录教务系统，登录后查看POST请求里面请求信息，就可以看到发送了什么信息过去了。

源码如下，用了两种方式，分别是urllib，urllib2和request

import urllib
import urllib2
import cookielib
import requests

# 要传送的表单数据
user_data = {
    "typeid": "2",
    "user": "******",
    "pass": "******"
}
# 写入cookie的文件
filename = 'cookie.txt'
# 声明一个CookieJar对象实例来保存cookie,之后写入文件
cookie = cookielib.MozillaCookieJar(filename)
# 利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler = urllib2.HTTPCookieProcessor(cookie)
# 通过handler来构建opener
opener = urllib2.build_opener(handler)
# 传送用户名和密码
post_data = urllib.urlencode(user_data)
login_url = '******'
# 学校网站采用了反爬虫策略，要伪装浏览器访问
headers = {'User-Agent': '*******'}
req_login = urllib2.Request(url=login_url, headers=headers)
# 使用opener模拟登录网页,并把cookie保存到变量
response = opener.open(req_login, post_data)    # data要在open的时候传上去
# 保存cookie到本地文件
cookie.save(ignore_discard=True, ignore_expires=True)
# 利用cookie进去需要抓信息的网页
grade_url = '******'
# 请求访问该网址
grade_response = opener.open(grade_url)
print grade_response.read().decode('gbk')

# 用request试试
s = requests.session()
login_url = '*****'
headers = {'******'}
# 模拟发送登录请求
login = s.post(login_url, data=user_data, headers=headers)
print login.content
# 访问成绩页面
grade_url = '******'
response = s.get(grade_url, cookies=login.cookies, headers=headers)
print response.content

不得不说，request真的是write for human！！！

kelvinLLL

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫实战——模拟登录教务系统

之前都是爬静态页面，不用登录的，这次试试有登录的。网页的登录主要是发送POST请求到服务器，得到响应后跳转到登录界面。每次登录，浏览器都会记录下cookie信息，在python中，可以用urllib，urllib2来获取cookie信息，然后利用cookie信息来模拟登录。当然还是得输入登录名和密码的。先在浏览器上登录教务系统，登录后查看POST请求里面请求信息，就可以看到发送了什么信息过
复制链接

扫一扫