一起学爬虫（Python） — 21 蝉妈妈，嘿嘿

最新推荐文章于 2024-07-20 11:26:27 发布

「已注销」

最新推荐文章于 2024-07-20 11:26:27 发布

阅读量7.7k

点赞数 44

分类专栏：爬虫文章标签： python cookie token 爬虫蝉妈妈

本文链接：https://blog.csdn.net/bcxbhello/article/details/111831047

版权

本文介绍了如何使用Python进行模拟登录蝉妈妈网站并获取登录后商品信息。通过理解cookies和token的概念，实现了绕过登录直接获取数据。文章详细讲解了登录过程中的请求头设置，包括cookies和token的获取与使用，适合爬虫初学者学习。

摘要由CSDN通过智能技术生成

一起学爬虫（Python） — 19 年轻人，进来学自动化

这里呢，还是宣传一下这个跟自动调试有关系的一篇博客，为什么呢，因为她能帮你们自动给我的博客点赞！！！

在这里插入图片描述
诶嘿嘿，各位一定不会想白嫖吧。

前言

经过两到三天的咕咕咕，小泽发现这个浏览量是蹭蹭蹭的往上涨，顿时变得无比纳闷，为什么我不勤奋更新了反而看的人变多了呢…

难道…

这是大家在用事实告诉我，更新是错误的，咕咕咕才是我应该做的吗！

带师，我悟了。

在这里插入图片描述
当然，拖更是不可能的，这辈子也不可能的，其实这段时间小泽在忙一个大项目，是跟腾讯合作的大项目，具体有多大呢，牵扯到的人数有千万级别，里面的利于更是千亿级别的，没错！

这几天我在努力的打王者荣耀。

在这里插入图片描述

然鹅卡在钻石上不去了T-T

气啊，赢一局输一局，这还怎么玩嘛！

只能靠低保过过日子，没有保级卡就不敢开排位。

在这里插入图片描述
所以经过一系列的打击之后呢，就来给大家更新了，绝对不是因为事业不顺哦，完全是心心念念我的小粉丝们好吧！！！

为什么要说这么多废话呢，你是不是看的津津有味，但是你不知道的是，我已经成功的水了将近一千的字数，啊哈哈哈哈哈哈哈哈哈哈哈哈哈哈…

那，废话不多说，咱们开干！

蝉妈妈

何为蝉妈妈

神奇の传送门

蝉妈妈呢，大家可以这么理解，就是一个帮我们统计哪些商品卖的好的一个平台，通过她我们就可以知道如果想要卖东西可以进那些货…当然以上都是我乱说的，因为她已经被我摸透了吧。

在这里插入图片描述

今天的目标

实现模拟登陆，并且爬取登录后查询到的商品信息。

为什么呢，因为如果不是登录状态的话，我们只能获取前10条信息，当然登录后如果不是VIP会员的话也只能获取前50条哦，不过一开始好像是可以免费领取VIP会员的，具体的你们可以去官网了解一下。

如果今天的内容你掌握了呢，你就可以试着绕过很多网站的登录，直接获取登录后的信息。

就是不用输账号密码。

了解一下cookies

为什么要了解cookies呢，我们今天主要解决的就是这个cookies的问题哦。

大家想一下，我们对一个网站进行登录，是不是只需要登录一遍就可以了！

后续再进行修改用户信息，站内查询等等功能的话，都不需要重新登陆吧。那么她是怎么知道我们在进行这些操作的时候，是已经登录的了呢，为什么我们在python里面直接发起请求就不可以呢？？？

这一切的一切的背后，究竟是道德的沦丧，还是人性的扭曲…欢迎收看午夜节目，小泽的爬虫教学！

在这里插入图片描述
其实啊，这背后都是cookies这个玩意在作祟，我们登录的时候呢，我就会好奇一个问题，到底是登录还是登陆呢？知道的小伙伴把答案打在留言里，这里我就统一暂时先用登录好了，因为登陆的话怎么看都像是登陆，对吧，简直一模一样。

又水了一波字数。

我们在登录的时候，本身就有一个cookies吧，这个cookies呢大家可以理解为登录前的cookies，也就是保存了我们的一些用户信息(不是登陆后的用户信息哦，是我们这个电脑的用户信息)，用来跟服务器做交互，然后交配成功的话，服务器就会发给我们一个两条杠的棒棒，对吧，没有开车，这个棒棒里呢，就包含了服务器返回的cookies，也就是联系方式吧，大家以后再来往哈。

然后呢，我们再对这个网站的其他页面进行访问的时候，浏览器就会自动的带上服务器返回的cookies，服务器呢也就不需要我们进行账号密码的输入，也能知道，原来是熟客鸭。

就直接开始那个了嘛。

你懂吧。

在这里插入图片描述
至于cookies里面包含什么呢，大家可以去我的合作伙伴那里，就是百度哦，了解一下，她应该是会告诉你的，如果她也不告诉你，那我再告诉你好了。

这里我们只要知道，我们需要取得登录成功后返回的cookies，然后每次访问的时候把这个cookies戴上去就ok了对吧，那你就要问了，你之前明明说好的用session就行了鸭，怎么这个时候又要手动戴上cookies了呢，无良博主，还我青春！

咳咳，网站的反爬措施也会升级的嘛，别那么讲究啦~

还有哦，cookies一定是在请求头里的，当然你也可以在requests里手动写上，不过我是直接放到headers里，省事。

说真的，打了这么多cookies，我都快不认识cookies了，看到这里的小可爱们点个赞再继续看吧，求求了！！！

在这里插入图片描述

了解一下蝉妈妈

每一位妈妈都是伟大的…

除了蝉妈妈。

在这里插入图片描述
打开一开始给大家的神奇の传送门，会发现这个网站其实还蛮好看的，大家可以在没登录之前，随便搜索一些东西，看一看效果。

这里我们再进去登录界面看一看：

在这里插入图片描述
应该是没有验证码的，我目前还没见到过，如果有说明你有问题。

也就是说我们需要在这个界面进行一个模拟登陆，然后获得服务器给我们返回的cookies值，再把这个值加到我们的headers里面，就可以进行一个登录后的数据搜索了，对吧。

冲呗。

开冲

老规矩，先打开抓包工具，然后登录，这里我们输入一个错的密码就可以了：

在这里插入图片描述
发现有两个包哦，第二个没有数据的嘛，所以不管，直接看第一个：

在这里插入图片描述
点进去看到，里面放着我们的账号和密码，还有一个时间戳，针不戳。

而且还是一个post请求吧：

在这里插入图片描述
同时返回的数据也需要json()一下。

在这里插入图片描述
在请求头里呢，也发现了我们登录前的cookies，因为要交互的嘛，所以就带上吧，还有一个Referer，如果看到这个的话，大家最好是带上，这个东西是证明我们不是通过其他链接访问的。

User-Agent，老朋友了。

headers = {
   
        # 登录前的cookie
        'Cookie': 'Hm_lvt_1f19c27e7e3e3255a5c79248a7f4bdf1=1607054172,1607241195,1607485551,1609118533; Hm_lpvt_1f19c27e7e3e3255a5c79248a7f4bdf1=1609118533; Hm_lvt_ce889f3ae5bf6277ca4cbf05b940acbc=1609118534; Hm_lpvt_ce889f3ae5bf6277ca4cbf05b940acbc=1609118534',
        # 证明我们不是通过外部链接过来的
        'Referer': 'https://www.chanmama.com/login',
        # 浏览器相关的信息啦
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
    }

不要直接复制我的哦，去复制你那边的去，哼！

然后我们再把我们的登录界面的url放进去~

# 登录页面
downlod_url = 'https://api-service.chanmama.com/v1/access/token'

还有时间戳！

# 时间戳，先弄成整数型的，再弄成字符串
timeStamp = str<

最低0.47元/天解锁文章

「已注销」

关注

44
点赞
踩
30

收藏

觉得还不错? 一键收藏
24
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录