爬取网站要登录?46行代码解决问题,python爬虫随心所欲

本文介绍了如何处理需要登录才能爬取数据的网站。通过理解Cookie的工作原理,可以利用Python爬虫携带登录后的Cookie获取信息。以“逼乎”为例,展示如何观察并获取Cookie,实现无需手动登录即可抓取数据。另外还提到了Selenium自动登录法,通过模拟用户操作获取Cookie,进一步实现自动化爬取。
摘要由CSDN通过智能技术生成

当你在爬某些网站的时候,需要你登录才可以获取数据,咋整?莫慌,把这几招传授给你,让你以后随心所欲的爬!

 

一:Cookie大法

你平常网站浏览的时候,是不是发现你只要登录一次,就可以一直看到你想要的内容,过了一阵子才需要再次登录?其实每个使用这个网站的人,服务器都会给他一个 Cookie,下次你再请求数据的时候,顺带把这个 Cookie 传过去,服务器一看,有登录过,直接返回数据给他吧!

在服务中还可以设置 Cookie 的有效时间,也就是说,当你下次携带一个过期了的 Cookie 给服务器的时候,虽然知道你是老客户,但是还是需要你重新再登录一次,然后再给你一个有效的 Cookie,Cookie 的时长周期是服务器那边定的。

了解了这一点之后,我们就来正式解决问题吧!我们以“逼乎”为例:

https://biihu.cc/account/login/

输入地址之后,按一下 F12,点击 network 标签,然后登录你的帐号,然后点击其中一个,你就可以看到在 Request Headers 有你的 Cookie

<

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值