我的反爬解决方案(2)—— 模拟登陆

本文介绍了一个针对常见网站的模拟登陆项目,包括账号密码明文提交、加密提交、验证码处理等不同登录方式。作者强调了模拟登陆在爬虫中的重要性,如处理反爬机制、增加采集数据量,并提供了登陆思路:分析加密、构造会话、处理验证码等。项目持续维护,旨在为爬虫开发者提供帮助。
摘要由CSDN通过智能技术生成

项目地址

常见站点模拟登陆(长期维护)https://github.com/IMWoolei/fuck-login

前言

爬虫的任务不仅仅是采集数据,自动刷访问量自动发布内容等都属于爬虫所涉及的范围。

而完成自动刷访问量、发布这些功能往往都需要在登陆状态下进行,另外HTTP是无连接\无状态的,所以实现登陆的目的是在本地生成Cookies,以记录本次会话状态。

另外携带Cookies的请求,可以在爬虫中解决一些反爬机制、采集数据量有限的问题,如在知乎信息采集中缺少Cookies会无法获取目标信息,采集搜狗微信时未登陆情况下只能请求前10页…

常见登陆方式

  • 账号密码明文提交,不做任何加密,如GitHub豆瓣CSDN(现在已更新了)等站点;

  • 账号密码进行加密或JS生成附带信息,如SHA1MD5HMACAESBase64等多种加密方式,如搜狐新闻,拉勾网;

  • 额外需要提交验证码信息,多数站点都会选择这种方式,bilibili的极验、搜狗微信<

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值