一起学爬虫(Python) — 21 蝉妈妈,嘿嘿

一起学爬虫(Python) — 19 年轻人,进来学自动化

这里呢,还是宣传一下这个跟自动调试有关系的一篇博客,为什么呢,因为她能帮你们自动给我的博客点赞!!!

在这里插入图片描述
诶嘿嘿,各位一定不会想白嫖吧。

前言

经过两到三天的咕咕咕,小泽发现这个浏览量是蹭蹭蹭的往上涨,顿时变得无比纳闷,为什么我不勤奋更新了反而看的人变多了呢…

难道…

这是大家在用事实告诉我,更新是错误的,咕咕咕才是我应该做的吗!

带师,我悟了。

在这里插入图片描述
当然,拖更是不可能的,这辈子也不可能的,其实这段时间小泽在忙一个大项目,是跟腾讯合作的大项目,具体有多大呢,牵扯到的人数有千万级别,里面的利于更是千亿级别的,没错!

这几天我在努力的打王者荣耀。

在这里插入图片描述

然鹅卡在钻石上不去了T-T

气啊,赢一局输一局,这还怎么玩嘛!

只能靠低保过过日子,没有保级卡就不敢开排位。

在这里插入图片描述
所以经过一系列的打击之后呢,就来给大家更新了,绝对不是因为事业不顺哦,完全是心心念念我的小粉丝们好吧!!!

为什么要说这么多废话呢,你是不是看的津津有味,但是你不知道的是,我已经成功的水了将近一千的字数,啊哈哈哈哈哈哈哈哈哈哈哈哈哈哈…

那,废话不多说,咱们开干!

蝉妈妈

何为蝉妈妈

神奇の传送门

蝉妈妈呢,大家可以这么理解,就是一个帮我们统计哪些商品卖的好的一个平台,通过她我们就可以知道如果想要卖东西可以进那些货…当然以上都是我乱说的,因为她已经被我摸透了吧。

在这里插入图片描述

今天的目标

实现模拟登陆,并且爬取登录后查询到的商品信息。

为什么呢,因为如果不是登录状态的话,我们只能获取前10条信息,当然登录后如果不是VIP会员的话也只能获取前50条哦,不过一开始好像是可以免费领取VIP会员的,具体的你们可以去官网了解一下。

如果今天的内容你掌握了呢,你就可以试着绕过很多网站的登录,直接获取登录后的信息。

就是不用输账号密码。

了解一下cookies

为什么要了解cookies呢,我们今天主要解决的就是这个cookies的问题哦。

大家想一下,我们对一个网站进行登录,是不是只需要登录一遍就可以了!

后续再进行修改用户信息,站内查询等等功能的话,都不需要重新登陆吧。那么她是怎么知道我们在进行这些操作的时候,是已经登录的了呢,为什么我们在python里面直接发起请求就不可以呢???

这一切的一切的背后,究竟是道德的沦丧,还是人性的扭曲…欢迎收看午夜节目,小泽的爬虫教学!

在这里插入图片描述
其实啊,这背后都是cookies这个玩意在作祟,我们登录的时候呢,我就会好奇一个问题,到底是登录还是登陆呢?知道的小伙伴把答案打在留言里,这里我就统一暂时先用登录好了,因为登陆的话怎么看都像是登陆,对吧,简直一模一样。

又水了一波字数。

我们在登录的时候,本身就有一个cookies吧,这个cookies呢大家可以理解为登录前的cookies,也就是保存了我们的一些用户信息(不是登陆后的用户信息哦,是我们这个电脑的用户信息),用来跟服务器做交互,然后交配成功的话,服务器就会发给我们一个两条杠的棒棒,对吧,没有开车,这个棒棒里呢,就包含了服务器返回的cookies,也就是联系方式吧,大家以后再来往哈。

然后呢,我们再对这个网站的其他页面进行访问的时候,浏览器就会自动的带上服务器返回的cookies,服务器呢也就不需要我们进行账号密码的输入,也能知道,原来是熟客鸭。

就直接开始那个了嘛。

你懂吧。

在这里插入图片描述
至于cookies里面包含什么呢,大家可以去我的合作伙伴那里,就是百度哦,了解一下,她应该是会告诉你的,如果她也不告诉你,那我再告诉你好了。

这里我们只要知道,我们需要取得登录成功后返回的cookies,然后每次访问的时候把这个cookies戴上去就ok了对吧,那你就要问了,你之前明明说好的用session就行了鸭,怎么这个时候又要手动戴上cookies了呢,无良博主,还我青春!

咳咳,网站的反爬措施也会升级的嘛,别那么讲究啦~

还有哦,cookies一定是在请求头里的,当然你也可以在requests里手动写上,不过我是直接放到headers里,省事。

说真的,打了这么多cookies,我都快不认识cookies了,看到这里的小可爱们点个赞再继续看吧,求求了!!!

在这里插入图片描述

了解一下蝉妈妈

每一位妈妈都是伟大的…

除了蝉妈妈。

在这里插入图片描述
打开一开始给大家的神奇の传送门,会发现这个网站其实还蛮好看的,大家可以在没登录之前,随便搜索一些东西,看一看效果。

这里我们再进去登录界面看一看:

在这里插入图片描述
应该是没有验证码的,我目前还没见到过,如果有说明你有问题。

也就是说我们需要在这个界面进行一个模拟登陆,然后获得服务器给我们返回的cookies值,再把这个值加到我们的headers里面,就可以进行一个登录后的数据搜索了,对吧。

冲呗。

开冲

老规矩,先打开抓包工具,然后登录,这里我们输入一个错的密码就可以了:

在这里插入图片描述
发现有两个包哦,第二个没有数据的嘛,所以不管,直接看第一个:

在这里插入图片描述
点进去看到,里面放着我们的账号和密码,还有一个时间戳,针不戳。

而且还是一个post请求吧:

在这里插入图片描述
同时返回的数据也需要json()一下。

在这里插入图片描述
在请求头里呢,也发现了我们登录前的cookies,因为要交互的嘛,所以就带上吧,还有一个Referer,如果看到这个的话,大家最好是带上,这个东西是证明我们不是通过其他链接访问的。

User-Agent,老朋友了。

headers = {
   
        # 登录前的cookie
        'Cookie': 'Hm_lvt_1f19c27e7e3e3255a5c79248a7f4bdf1=
  • 44
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 24
    评论
爬虫Python习是指习如何使用Python编程语言来进行网络爬取和数据提取的过程。Python是一种简单易且功能强大的编程语言,因此被广泛用于爬虫开发。爬虫是指通过编写程序自动抓取网页上的信息,可以用于数据采集、数据分析、网站监测等多个领域。 对于想要爬虫的新手来说,Python是一个很好的入门语言。Python的语法简洁易懂,而且有丰富的第三方库和工具,如BeautifulSoup、Scrapy等,可以帮助开发者更轻松地进行网页解析和数据提取。此外,Python还有很多优秀的教程和习资源可供选择,可以帮助新手快速入门并掌握爬虫技能。 如果你对Python编程有一定的基础,那么爬虫并不难。你可以通过观看教视频、阅读教程、参与在线课程等方式来习。网络上有很多免费和付费的习资源可供选择,你可以根据自己的需求和习风格选择适合自己的习材料。 总之,爬虫Python需要一定的编程基础,但并不难。通过选择合适的习资源和不断实践,你可以逐步掌握爬虫的技能,并在实际项目中应用它们。 #### 引用[.reference_title] - *1* *3* [如何自Python爬虫? 零基础入门教程](https://blog.csdn.net/zihong523/article/details/122001612)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [新手小白必看 Python爬虫习路线全面指导](https://blog.csdn.net/weixin_67991858/article/details/128370135)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 24
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值