爬虫模拟登录的思路

最新推荐文章于 2025-02-05 21:26:20 发布

缓次郎

最新推荐文章于 2025-02-05 21:26:20 发布

阅读量758

点赞数 1

分类专栏： Python 爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_39559879/article/details/107202904

版权

创建时间 2020年7月6日

通过对 COOKIES 的分析找出登录必需的 COOKIE，剔除可能会导致登录状态失效的 COOKIE（有些过期时间短的非必要 COOKIE 可能会导致模拟登录失败）。

方法并不局限于 B 站，对绝大部分网站来说都是适用的。

1. 分析必需 COOKIE

抓包登录接口获取返回的 Set-Cookie 值
在站点信息中找 COOKIE，然后去除不必要 COOKIE 然后保存必须 COOKIE

对第 2 步去除 COOKIE来说，有如下技巧：

看名字
看过期时间

一般来说名字奇特的 COOKIE（比如名字像乱码什么的）和过期时间超长（短）的 COOKIE 都可以先尝试在 COOKIE 管理面板删除，如果删除后出现了登录状态失效的情况，下次避开这些 COOKIE 即可（实际上这些 COOKIE 就是登录必需的 COOKIE）。

碰到名字全大写的 COOKIE 就要注意了，这些 COOKIE 可能有着重要作用，在觉得不必要的 COOKIE 都删除完毕后可以尝试删除这些 COOKIE，然后找出登录必需的 COOKIE。

找到登录必需 COOKIE 后只需要记录下这些 COOKIE 的过期时间然后在它们过期之前更新其值即可。

2. 通过爬虫模拟登录

有了第一步的 COOKIE 之后这一步就非常简单了，我们只需要在请求头的 cookie 字段内添加第一步获取的 cookie 即可。

这里对于 COOKIE 的保存个人推荐把 COOKIE 放到文本

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

缓次郎

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python网络爬虫实战——模拟登录！

Pythoncxy的博客

09-20

970

对于一个网站的首页来说，它可能需要你进行登录，比如知乎，同一个URL下，你登录与未登录当然在右上角个人信息那里是不一样的。 Python资源共享群：626017123 (登录过) (未登录) 那么你在用爬虫爬取的时候获得的页面究竟是哪个呢？肯定是第二个，不可能说你不用登录就可以访问到一个用户自己的主页信息，那么是什么让同...

python网络爬虫---模拟登陆

qq_33643943的博客

11-06

340

为什么要模拟登陆网页需要用户登陆后才能获取到信息，所以我们的爬虫需要模拟用户的登陆行为，在登陆以后保存登陆信息，以便浏览该页面下的其他页面。模拟登陆的步骤：一保存用户的登录信息：Session和Cookie session: import requests s=requests.Session() r=s.post(url,da...

参与评论您还未登录，请先登录后发表或查看评论

可转债数据一览表集思录_EXCEL一键获取可转债所有实时数据

weixin_39559071的博客

01-12

5880

在本文的底部，各位读者可以获取对应的EXCEL模板。偶尔使用集思录数据做可转债投资，但一些关键数据需要注册会员才可以使用，而且分析时经常需要导入到EXCEL中计算更多的个性指标。因此，我用EXCEL做了一个查询，该查询能够实时爬取某公开财经网站上所有可转债的实时数据以及相关指标，替代集思录的可转债数据。其中：1.实时数据：每5分钟自动更新一次，当然也可以实时做手动更新。手动更新操作如下：首先启用外...

python爬虫--简单登录

最新发布

一念的博客

02-05

2545

python爬虫，简单登录，flask的简单使用

Python 开发网络爬虫(四): 登录

weixin_34259559的博客

08-07

189

http://blog.jobbole.com/77878/ ...

python模拟登录思路

it-dark的博客

05-20

317

python模拟登录

爬虫 - 模拟登录

qq_33962481的博客

04-23

269

文章目录一、人人网模拟登录二、自动处理cookie1.cookie值的来源是哪里2.读入数据总结一、人人网模拟登录点击登录按钮之后会发起一个post请求 post请求中会携带登录之前录入的相关信息二、自动处理cookie 1.cookie值的来源是哪里代码如下（示例）： import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warni

java 爬虫模拟登陆CSDN详解（模拟表单登陆）

天才周的博客

09-08

6559

借鉴了许多网上的东西终于搞懂了，其实理念很简单，就是用代码向表单中提交数据，这时候需要分析需要提交什么，账户？密码？就没了嘛，不，当然不，还需要一下其他的东西，这些东西，因不同的网站而不同，第一步：分析页面结构我们要模拟CSDN用户表单登录，来获取用户登录后的数据。在一些网站和论坛，部分内容总是需要会员用户等需要一定权限的用户才能看得到。好了由此可见模拟用户表单登录的重要性了。 ...

python爬虫模拟登陆校园网+连接校园wifi

qq_56419417的博客

05-13

3381

注：本文仅作为学术交流和技术分析，所有的敏感信息全部打码，登录的账号为本人自己的账号，不涉及任何敏感行为，转载请注明因本人在学校学习期间每次开机，都需要连接校园的wifi（学校的wifi在每次连接时，都需要向弹出网页填写数据，提交表单），觉得操作繁琐，学习的爬虫课程刚好派上用场。想着使用POST请求去模拟登陆并实现连接校园WIFI。最终实现：计算机开机自动启动脚本，进行网络（指定WIFI）连接。首先、进入校园网的登录界面按下F12键打开控制台，点击登录，通过抓包发现这条请求aut.

java 模拟登录验证码_模拟登陆爬虫+验证码爬虫

weixin_29940495的博客

02-21

1236

啊，摸索了半天，总算有点头绪了，由于对网页结构的不清晰，被折磨了好久。。。最近就专门研究这个爬虫问题：1.简单单页网页的爬取2.翻页网页的爬取(商品，新闻类啊)3.需要登陆网页的爬取4.需要登陆加验证的网页爬取5.scrapy 的框架问题6.beautifulSoup、requests7.cookeis、表单数据的查看以上数据爬取之后，可以进行数据挖掘。为防止网站被恶意访问，需要设置验证码登录，避...

爬虫模拟登陆强智教务系统

King

02-04

2519

爬虫模拟登陆强智教务系统

CSDN爬虫（三）——网络爬虫模拟登陆两种策略

10-05

文章同步：http://blog.csdn.net/wgyscsf

python爬虫模拟扫码登录_Python爬虫模拟登录的黑魔法

weixin_39669265的博客

12-04

2361

今天用 requests + BeautifulSoup 抓取 aliexpress 的时候，在模拟登录时候出现了很多问题，提交数据时会对密码等一些字段加密，而且提交一大堆不知名的字段，大概有二十多项。看到那么多字段，整个人就不好了，作为一个懒人，准备绕过这个坑。大概思路是这样，通过 selenium 打开浏览器，模拟登录。获取cookies ，并将cookies以文件的形式...

网络爬虫基础-模拟登陆

weixin_39281866的博客

10-26

1265

验证码验证码识别验证码和爬虫之间的爱恨情仇? 反爬机制：验证码，识别验证码图片中的数据，用于模拟登陆操作识别验证码的操作：人工肉眼识别。图像识别第三方自动识别超级鹰处理验证码 http://www.chaojiying.com/ 第三方法自动识别超级鹰的使用流程：开发者用户的登陆创建一个软件：用户中心——>创建软件——>获取软件id和密钥下载示例代码：开发文档——> python ——> 下载使用打码平台识别验证码的编码流程：

爬虫用户登陆

03-04

626

案例网站：https://www.yaozh.com/ 自行先注册一个账号登陆，从后台拿到cookie信息（需要先解析成字典）。用requests带着cookie请求页面： import requests from fake_useragent import UserAgent ua =UserAgent(verify_ssl=False) url = 'https://www.yaozh.co...

谈谈爬虫-模拟登录思路

热门推荐

AUV1107的专栏

07-30

1万+

最近在做的sideproject，需要网络上的文章数据。于是顺便学习了下爬虫技术，也算是有些心得体会。写下来分享给刚入坑的新人。怎么理解模拟登录？怎么理解模拟登录？把这句话补全就是：怎么(让机器)模拟(人在浏览器上的行为)登录(指定的网站)。那么这个问题实际上问的是：人通过浏览器登录网站时，浏览器为我们做了哪些事情。那么我们需要做的只有：写一个脚本，让这个脚本模拟浏览器的行为，做我们

python爬虫模拟扫码登录_Python爬虫基础-模拟登陆

weixin_39592026的博客

11-30

2766

为什么我们要让爬虫模拟登陆呢？有些内容只有登陆才能进行爬取，如知乎，不登录的主页只能看到注册和登陆；你想爬取自己的个人信息有什么方法呢？cookie在互联网发展的早期，由于大家的服务器都不是太好，所以服务端不会记住你的个人信息，这会增加服务器的压力。因此早期的连接都是一次性的，服务器在不会记得你什么时候来过，也不知道你做了什么。但是随着服务器的升级换代，淘宝这类网站需要记住你的个人信息，这样你下...

模拟登陆过程思路分析

wordpython

02-27

342

1.输入错误用户名（这样页面就不会跳转），查看请求的url,注意变化如图： 2.查看提交方式：1.表单<form>,2.ajax,3.js。查看url。！！查看是否有加密！！ 3.有加密：（为什么知道呢，因为先试过给form里面的action的url发送相应数据，没有成功，然后注意到form里有个隐藏的标签，如图：）它给服务器端传送的数据并不单单是表面的用户名和密码，而是h...

爬虫之模拟登陆

weixin_47237915的博客

04-17

504

模拟登陆模拟登陆笔记实战模拟登陆人人网附件超级鹰代码模拟登陆笔记 1.模拟登陆：爬取基于某些用户的用户信息。 2.需求：对人人网进行模拟登陆。 - ①点击登陆按钮之后会发起一个post请求 - ②post请求中会携带登陆之前录入的相关的登陆信息（用户名，密码，验证码…） - ③验证码：每次请求都会动态变化 3.需求：爬取当前用户的相关的用户信息（个人主页中显示的用户信息） 4.http/https协议特性：无状态。 5.没有请求到对应页面数据的原因：发起的第二次基于个人主页页面请求的时候，服务器端并不知

Java爬虫模拟登陆源码：即下即用快速入门

标题中提到的“直接导入eclipse，用于爬虫初期网站抓取数据的模拟登陆，即下即用”，意味着该Java源码可直接在Eclipse集成开发环境（IDE）中导入并运行。要实现这一点，源码应满足以下条件： - 代码具备良好的组织...