python爬虫登录网站_Python网络爬虫之模拟登陆

原标题:Python网络爬虫之模拟登陆

f388fe8251b54498a82856b5c1d9adf3.jpeg

为什么要模拟登陆?

Python网络爬虫应用十分广泛,但是有些网页需要用户登陆后才能获取到信息,所以我们的爬虫需要模拟用户的登陆行为,在登陆以后保存登陆信息,以便浏览该页面下的其他页面。

保存用户信息

模拟登陆后有两种方法可以保存用户信息,通过Session来保存登陆信息或者通过Cookie来保存登陆信息

一、Session的用法

# 导入requests模块

import requests

# 通过requests的Session来请求网页

s = requests.Session

r = s.post(url, headers=headers)

二、Cookie的用法

import urllib.request, http.cookiejar

# 初始化Cookie

cookie = http.cookiejar.CookieJar

opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))

# 把opener配置为全局 当然也可以不配置全局通过opener来请求网页

urllib.request.install_opener(opener)

模拟登陆实践

我们以豆瓣网为例模拟用户登陆,然后爬取登陆后的用户界面

(1)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值