Python3 爬虫（四） -- 登录知乎

最新推荐文章于 2024-05-10 03:02:24 发布

逆風的薔薇

最新推荐文章于 2024-05-10 03:02:24 发布

阅读量1.5w

点赞数 7

分类专栏： Python 文章标签：爬虫 python 浏览器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fly_yr/article/details/51531650

版权

序

有些网站需要用户登录，利用python实现知乎网站的模拟登录。用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息。

知乎登录首页

第一、使用Fiddler观察“登录”浏览器行为

打开工具Fiddler，在浏览器中访问https://www.zhihu.com，Fiddler 中就能看到捕捉到的所有连接信息。在左侧选择登录的那一条：
观察右侧，打开 Inspactors 透视图, 上方是该条连接的请求报文信息, 下方是响应报文信息：

1.2 用户登录信息

这里写图片描述

1.3 Raw显示请求报头原文

raw

1.4下方：回应报文

raw2

第二、Python实现

2.1 抓取知乎首页

简单的写一个 GET 程序, 把知乎首页 GET 下来, 然后 decode() 一下解码, 结果报错. 仔细一看, 发现知乎网传给我们的是经过 gzip 压缩之后的数据. 这样我们就需要先对数据解压. Python 进行 gzip 解压很方便, 因为内置有库可以用. 代码片段如下:

import gzip
def ungzip(data):
try:

最低0.47元/天解锁文章

逆風的薔薇

关注

7
点赞
踩
17

收藏

觉得还不错? 一键收藏
18
评论
Python3 爬虫（四） -- 登录知乎

序有些网站需要用户登录，利用python实现知乎网站的模拟登录。用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息。知乎登录首页第一、使用Fiddler观察“登录”浏览器行为打开工具Fiddler，在浏览器中访问https://www.zhihu.com，Fiddler 中就能看到捕捉到的所有连接信息。在左侧选择登录的那一条：观察右侧，打开 Inspactors 透视图, 上方
复制链接

扫一扫

专栏目录

评论 18

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。