python爬虫登录下载_Python3爬虫之五网页下载器的几种方法【Python使用cookie模拟登录CSDN】...

最新推荐文章于 2022-09-23 12:03:47 发布

weixin_39801158

最新推荐文章于 2022-09-23 12:03:47 发布

阅读量77

点赞数

文章标签： python爬虫登录下载

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39801158/article/details/111433902

版权

(1)直接请求

from urllib import request

# 目标网址

url = "http://www.zhihu.com"

# 直接请求

response = request.urlopen(url)

# 获取请求的状态码，200表示成功

# 读取内容

if(response.getcode() == 200):

print(response.read())

(2)使用Request添加data、http header等数据

from urllib import request

# 目标网址

url = "http://www.zhihu.com"

# 需要添加的数据

header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36"}

# 创建Request对象

req = request.Request(url, headers=header)

# 发送请求

res = request.urlopen(req)

# # 获取请求的状态码，200表示成功

# # 读取内容

if(res.getcode() == 200):

print(res.read())

(3)利用cookies模拟登录我的CSDN博客

import urllib

import re

from urllib import request

import http.cookiejar

# 目标网址

url = 'https://passport.csdn.net'

# 创建cookie容器

cookie = http.cookiejar.CookieJar()

# 创建一个opener

opener = request.build_opener(request.HTTPCookieProcessor(cookie))

# 添加http header

opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36')]

# 需要封装的数据

h = opener.open(url).read().decode("utf8")

pattern1 = re.compile(r'name="lt" value="(.*?)"')

pattern2 = re.compile(r'name="execution" value="(.*?)"')

b1 = pattern1.search(h)

b2 = pattern2.search(h)

post_data = {

'username':'***',

'password':'***',

'lt': b1.group(1),

'execution': b2.group(1),

'_eventId': 'submit',

}

post_data = urllib.parse.urlencode(post_data).encode('utf-8')

# 使用带cookie的urllib访问网页

res = opener.open(url, post_data)

# text = res.read().decode('utf-8')

# print(text)

res2 = opener.open('http://my.csdn.net/my/mycsdn')

text2 = res2.read().decode('utf-8')

print(text2)

weixin_39801158

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫登录下载_Python3爬虫之五网页下载器的几种方法【Python使用cookie模拟登录CSDN】...

(1)直接请求from urllib import request# 目标网址url = "http://www.zhihu.com"# 直接请求response = request.urlopen(url)# 获取请求的状态码，200表示成功# 读取内容if(response.getcode() == 200):print(response.read())(2)使用Request添加data、h...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。