知乎登陆

最新推荐文章于 2024-05-28 21:01:01 发布

有关心情

最新推荐文章于 2024-05-28 21:01:01 发布

阅读量4.9k

点赞数 2

分类专栏： Python 文章标签： python 知乎自动登陆

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41359051/article/details/81625754

版权

知乎登陆

@(博客)[Python, 登陆, 知乎, 爬虫]

文章目录

知乎登陆

018.8.12

背景

因为学年综合实践准备的一部分需要爬取知乎全站，所以为了方便，自动登陆是很有必要的。而由于许多学习爬虫的各友，都爱拿知乎练手——其实我倒非然，这算是第一次对知乎“开战”，是客观因素导致的必然——以至于知乎加强了反扒机制
这里写图片描述

我爬虫经验有限，实在不知该对这样的加密如何下手，一番搜索引擎之后，得到的都是过期操作。Github上找到了通过二维码扫描登陆的思路，那就以此宣战吧。

也在此感谢这名网友的无私奉献，点击可查看

题外话

说句题外话：切不可以惯性思维

另：完整代码已上传Github，文章末尾有链接。里边的study文件是我整个思考过程中产生的测试代码，如果只是需要实现知乎登陆，则study文件可以直接删除

环境

（1）python3.6
（2）主要第三方库：

requests
PIL：pip3 install -i https://pypi.douban.com/simple/ pillow 利用豆瓣源，加快下载速度，因为直接安装可能会出现timeout的错误

（3）chrome

寻找切入点

这里写图片描述

第一步肯定是先来到知乎提供二维码登陆的界面，利用开发工具，可查看请求这个二维码图片需要那些数据
这里写图片描述

能看到是get请求，headers也很寻常，但多次刷新可发现请求的url地址有一部分在改变
这里写图片描述

这肯定算不上什么难点，我们寻找前面的文件，能找到这部分动态改变的值
这里写图片描述

为了方便阐述，那就把image称之为A文件，qrcode成为B文件。这里就有了一个思路，先请求B文件，拿到token值以后，拼接成目的url，再去请求A文件

问题的转移1

于是我们从A迁移到了B

这里写图片描述

可见请求B文件的时候，headers字段是真的很多，但绝对不会所有都必要，这只能排除法了

以我拙见是这样处理的，首先看清楚了，是POST请求（从爬虫到现在也几个月了，还是爬了不少网站，真的不提交数据用post请求的，我第一次见，所以之前一直是惯性思维的用get，然后一直请求失败，所以各位入门爬虫的注意了，千万注意了别掉坑里）
这里写图片描述

复制了所有headers，做一次post的请求，再看看状态码是不是201（为了避免请求被重定向，建议打印请求内容，或者关闭重定向，后面皆以打印内充处理不再单独提示）（对应study/test1.py文件）
这里写图片描述

可以说很OK，然后就开始排除法，首先去掉的是最常用不到的噻。通过几轮排除下来，发现Cookie和User-Agent是必要的，

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
知乎登陆

知乎登陆@(博客)[Python, 登陆, 知乎, 爬虫]知乎登陆背景题外话环境寻找切入点问题的转移1问题的转移2继续撸开始代码完善代码018.8.12背景因为学年综合实践准备的一部分需要爬取知乎全站，所以为了方便，自动登陆是很有必要的。而由于许多学习爬虫的各友，都爱拿知乎练手——其实我倒非然，这算是第一次对知乎“开战”，是客观因素导致的必...
复制链接

扫一扫

专栏目录

有关心情 CSDN认证博客专家 CSDN认证企业博客

码龄7年

137: 原创

3万+: 周排名

176万+: 总排名

49万+: 访问

: 等级

5211: 积分

152: 粉丝

527: 获赞

120: 评论

1539: 收藏

私信

关注

分类专栏

Rust 2篇
网络 1篇
Flutter 1篇
Go 6篇
HTTP 1篇
配置问题 16篇
Python 10篇
Python爬虫 16篇
Js 1篇
C 7篇
报错集合 4篇
Python小记 32篇
算法基础 6篇
C++ 4篇
Leetcode 5篇
设计模式 3篇
STL 1篇
Shell 3篇
数据分析 1篇
Linux性能优化 3篇
工具 8篇
Flask 1篇
SQL 3篇

最新评论

fetch 引发 blocked by CORS policy
Hg_nice: 这就没了？？？没说完吧
super()函数的使用
Kamen Black君: 今天刚好碰到super函数的问题，特来观览
super()函数的使用
Kamen Black君: 不断学习，共同进步。今天正好碰到关于super函数的问题，特来观览。
Rust 中的 mod (模块)
xiaodong.Lin: “mod 还可以把 B 模块引入到 A 模块中。如上述代.... ” 这个我测试了，不行
fetch 引发 blocked by CORS policy
dsus ch: 完美解决了我的问题，但还是不明白用json字符串传输为什么要，后台为什么要加上Access-Control-Allow-Headers: *

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。