轻松绕过90%反爬虫机制

反爬虫战争的胜利终将属于爬虫一方。

反 反爬原理

大部分网站的反爬机制都很简单,只要我们添加一定的headers、cookie信息就可以伪装通过验证,极少数网站会用到密匙加密等验证。


绕过淘宝反爬机制

1、裸爬实验

以需要登陆验证的淘宝商品页面为例。

import requests
url = https://s.taobao.com/search?initiative_id=tbindexz_20170306&ie=utf8&spm=a21bo.2017.201856-taobao-item.2&sourceId=tb.index&search_type=item&ssid=s5-e&commend=all&imgfile=&q=书包&suggest=history_1&_input_charset=utf-8&wq=&suggest_query=&source=suggest
r = requests.get(url)
print(r.text)

返回如下结果:
在这里插入图片描述
可以看到并没有返回想要的商品页信息,所以在爬取淘宝页面时必须绕过登录验证。

2、获取headers、cookie伪装
  1. 登录淘宝账号,并在页面按下 F12

  2. 点选Network页面

  3. F5刷新页面

  4. 右击所指选项
    在这里插入图片描述

  5. 选取“copy as cUrl (bash)”选项

  6. 打开cUrl To Python request 网站

     https://curl.trillworks.com
    
  7. 粘贴拷贝内容至左侧并回车
    在这里插入图片描述

  8. 将右侧结果选择复制至程序头部,并添加缺省参数

在这里插入图片描述

3、再次爬取淘宝页面

在这里插入图片描述
可以看到成功返回含商品信息的结果。

  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值