一起学爬虫(Python) — 21 蝉妈妈,嘿嘿

本文介绍了如何使用Python进行模拟登录蝉妈妈网站并获取登录后商品信息。通过理解cookies和token的概念,实现了绕过登录直接获取数据。文章详细讲解了登录过程中的请求头设置,包括cookies和token的获取与使用,适合爬虫初学者学习。
摘要由CSDN通过智能技术生成

一起学爬虫(Python) — 19 年轻人,进来学自动化

这里呢,还是宣传一下这个跟自动调试有关系的一篇博客,为什么呢,因为她能帮你们自动给我的博客点赞!!!

在这里插入图片描述
诶嘿嘿,各位一定不会想白嫖吧。

前言

经过两到三天的咕咕咕,小泽发现这个浏览量是蹭蹭蹭的往上涨,顿时变得无比纳闷,为什么我不勤奋更新了反而看的人变多了呢…

难道…

这是大家在用事实告诉我,更新是错误的,咕咕咕才是我应该做的吗!

带师,我悟了。

在这里插入图片描述
当然,拖更是不可能的,这辈子也不可能的,其实这段时间小泽在忙一个大项目,是跟腾讯合作的大项目,具体有多大呢,牵扯到的人数有千万级别,里面的利于更是千亿级别的,没错!

这几天我在努力的打王者荣耀。

在这里插入图片描述

然鹅卡在钻石上不去了T-T

气啊,赢一局输一局,这还怎么玩嘛!

只能靠低保过过日子,没有保级卡就不敢开排位。

在这里插入图片描述
所以经过一系列的打击之后呢,就来给大家更新了,绝对不是因为事业不顺哦,完全是心心念念我的小粉丝们好吧!!!

为什么要说这么多废话呢,你是不是看的津津有味,但是你不知道的是,我已经成功的水了将近一千的字数,啊哈哈哈哈哈哈哈哈哈哈哈哈哈哈…

那,废话不多说,咱们开干!

蝉妈妈

何为蝉妈妈

神奇の传送门

蝉妈妈呢,大家可以这么理解,就是一个帮我们统计哪些商品卖的好的一个平台,通过她我们就可以知道如果想要卖东西可以进那些货…当然以上都是我乱说的,因为她已经被我摸透了吧。

在这里插入图片描述

今天的目标

实现模拟登陆,并且爬取登录后查询到的商品信息。

为什么呢,因为如果不是登录状态的话,我们只能获取前10条信息,当然登录后如果不是VIP会员的话也只能获取前50条哦,不过一开始好像是可以免费领取VIP会员的,具体的你们可以去官网了解一下。

如果今天的内容你掌握了呢,你就可以试着绕过很多网站的登录,直接获取登录后的信息。

就是不用输账号密码。

了解一下cookies

为什么要了解cookies呢,我们今天主要解决的就是这个cookies的问题哦。

大家想一下,我们对一个网站进行登录,是不是只需要登录一遍就可以了!

后续再进行修改用户信息,站内查询等等功能的话,都不需要重新登陆吧。那么她是怎么知道我们在进行这些操作的时候,是已经登录的了呢,为什么我们在python里面直接发起请求就不可以呢???

这一切的一切的背后,究竟是道德的沦丧,还是人性的扭曲…欢迎收看午夜节目,小泽的爬虫教学!

在这里插入图片描述
其实啊,这背后都是cookies这个玩意在作祟,我们登录的时候呢,我就会好奇一个问题,到底是登录还是登陆呢?知道的小伙伴把答案打在留言里,这里我就统一暂时先用登录好了,因为登陆的话怎么看都像是登陆,对吧,简直一模一样。

又水了一波字数。

我们在登录的时候,本身就有一个cookies吧,这个cookies呢大家可以理解为登录前的cookies,也就是保存了我们的一些用户信息(不是登陆后的用户信息哦,是我们这个电脑的用户信息),用来跟服务器做交互,然后交配成功的话,服务器就会发给我们一个两条杠的棒棒,对吧,没有开车,这个棒棒里呢,就包含了服务器返回的cookies,也就是联系方式吧,大家以后再来往哈。

然后呢,我们再对这个网站的其他页面进行访问的时候,浏览器就会自动的带上服务器返回的cookies,服务器呢也就不需要我们进行账号密码的输入,也能知道,原来是熟客鸭。

就直接开始那个了嘛。

你懂吧。

在这里插入图片描述
至于cookies里面包含什么呢,大家可以去我的合作伙伴那里,就是百度哦,了解一下,她应该是会告诉你的,如果她也不告诉你,那我再告诉你好了。

这里我们只要知道,我们需要取得登录成功后返回的cookies,然后每次访问的时候把这个cookies戴上去就ok了对吧,那你就要问了,你之前明明说好的用session就行了鸭,怎么这个时候又要手动戴上cookies了呢,无良博主,还我青春!

咳咳,网站的反爬措施也会升级的嘛,别那么讲究啦~

还有哦,cookies一定是在请求头里的,当然你也可以在requests里手动写上,不过我是直接放到headers里,省事。

说真的,打了这么多cookies,我都快不认识cookies了,看到这里的小可爱们点个赞再继续看吧,求求了!!!

在这里插入图片描述

了解一下蝉妈妈

每一位妈妈都是伟大的…

除了蝉妈妈。

在这里插入图片描述
打开一开始给大家的神奇の传送门,会发现这个网站其实还蛮好看的,大家可以在没登录之前,随便搜索一些东西,看一看效果。

这里我们再进去登录界面看一看:

在这里插入图片描述
应该是没有验证码的,我目前还没见到过,如果有说明你有问题。

也就是说我们需要在这个界面进行一个模拟登陆,然后获得服务器给我们返回的cookies值,再把这个值加到我们的headers里面,就可以进行一个登录后的数据搜索了,对吧。

冲呗。

开冲

老规矩,先打开抓包工具,然后登录,这里我们输入一个错的密码就可以了:

在这里插入图片描述
发现有两个包哦,第二个没有数据的嘛,所以不管,直接看第一个:

在这里插入图片描述
点进去看到,里面放着我们的账号和密码,还有一个时间戳,针不戳。

而且还是一个post请求吧:

在这里插入图片描述
同时返回的数据也需要json()一下。

在这里插入图片描述
在请求头里呢,也发现了我们登录前的cookies,因为要交互的嘛,所以就带上吧,还有一个Referer,如果看到这个的话,大家最好是带上,这个东西是证明我们不是通过其他链接访问的。

User-Agent,老朋友了。

headers = {
   
        # 登录前的cookie
        'Cookie': 'Hm_lvt_1f19c27e7e3e3255a5c79248a7f4bdf1=1607054172,1607241195,1607485551,1609118533; Hm_lpvt_1f19c27e7e3e3255a5c79248a7f4bdf1=1609118533; Hm_lvt_ce889f3ae5bf6277ca4cbf05b940acbc=1609118534; Hm_lpvt_ce889f3ae5bf6277ca4cbf05b940acbc=1609118534',
        # 证明我们不是通过外部链接过来的
        'Referer': 'https://www.chanmama.com/login',
        # 浏览器相关的信息啦
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }

不要直接复制我的哦,去复制你那边的去,哼!

然后我们再把我们的登录界面的url放进去~

# 登录页面
downlod_url = 'https://api-service.chanmama.com/v1/access/token'

还有时间戳!

# 时间戳,先弄成整数型的,再弄成字符串
timeStamp = str<
评论 24
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值