认识爬虫:提取网站 cookie 信息,并使用 cookie 信息实现登录

为什么要使用 cookie 信息来进行爬虫呢?做后端的朋友们都知道,一般情况下,在服务器上发布接口都是要设置身份信息验证,验证的方式就是通过 cookie 信息中包含的身份认证来进行验证。在身份验证通过之后,才能获取到响应接口的信息,所以,掌握这一点在爬虫过程中也是极为必要,不然只能爬取一些不需要验证的公开信息,话不多说,我们进入实战环节。

1、导入依赖的第三方扩展库
 1# -*- coding: UTF-8 -*-
 2
 3# 导入 urllib 库,对请求参数进行编码
 4import urllib
 5
 6# 导入 urllib2 库,完成网络请求
 7import urllib2
 8
 9# 导入 cookielib 库,用于操作 cookie 信息
10import cookielib
2、登录网站并提取 cookie 信息进行保存
 1# 设置文件路径
 2filename = u'usr/load/cookie.txt'
 3
 4# 创建 MozillaCookieJar 对象用于操作 cookie 信息
 5cookie_obj = cookielib.MozillaCookieJar(filename)
 6# 构建 opener 对象
 7opener_obj = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_obj))
 8
 9# 构建用户名、密码,并进行 encode 编码
10params = urllib.urlencode({
11    'account': '000000',
12    'passwd': '000000'
13})
14
15# 定义网站登录地址
16login_url = 'http://wefd.com/login'
17
18# 向服务器发送请求、实现用户名/密码登录
19result = opener_obj.open(url=login_url, data=params)
20
21# 保存 cookie 信息
22cookie_obj.save(ignore_discard=True, ignore_expires=True)
3、提取保存的 cookie 信息并使用 cookie 信息完成登录
 1# 创建 MozillaCookieJar 实例对象用于操作 cookie 信息
 2cookie_obj = cookielib.MozillaCookieJar()
 3
 4# 设置文件路径
 5filename = u'usr/load/cookie.txt'
 6
 7# 加载 cookie 信息到 MozillaCookieJar 对象
 8cookie_obj.load(filename, ignore_discard=True, ignore_expires=True)
 9
10# 定义网站登录地址
11login_url = 'http://wefd.com/login'
12
13# 创建 Request 请求
14request = urllib2.Request(login_url)
15
16# 构建 opener 对象,并加入 cookie 信息
17opener_obj = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie_obj))
18
19# 执行登录请求
20response = opener_obj.open(request)
21print response.read()

更多精彩前往微信公众号【Python 集中营】,专注于 python 技术栈,资料获取、交流社区、干货分享,期待你的加入~

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Python 集中营

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值