轻松绕过90%反爬虫机制

最新推荐文章于 2025-04-03 10:33:33 发布

机械搬砖工

最新推荐文章于 2025-04-03 10:33:33 发布

阅读量2.7k

点赞数 3

分类专栏： Python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43161186/article/details/104382771

版权

Python 爬虫专栏收录该内容

7 篇文章

订阅专栏

反爬虫战争的胜利终将属于爬虫一方。

反反爬原理

大部分网站的反爬机制都很简单，只要我们添加一定的headers、cookie信息就可以伪装通过验证，极少数网站会用到密匙加密等验证。

绕过淘宝反爬机制

1、裸爬实验

以需要登陆验证的淘宝商品页面为例。

import requests
url = https://s.taobao.com/search?initiative_id=tbindexz_20170306&ie=utf8&spm=a21bo.2017.201856-taobao-item.2&sourceId=tb.index&search_type=item&ssid=s5-e&commend=all&imgfile=&q=书包&suggest=history_1&_input_charset=utf-8&wq=&suggest_query=&source=suggest
r = requests.get(url)
print(r.text)

返回如下结果：
在这里插入图片描述
可以看到并没有返回想要的商品页信息，所以在爬取淘宝页面时必须绕过登录验证。

2、获取headers、cookie伪装

登录淘宝账号，并在页面按下 F12
点选Network页面
F5刷新页面
右击所指选项
选取“copy as cUrl (bash)”选项
打开cUrl To Python request 网站
```
 https://curl.trillworks.com
```
粘贴拷贝内容至左侧并回车
将右侧结果选择复制至程序头部，并添加缺省参数

在这里插入图片描述

3、再次爬取淘宝页面

在这里插入图片描述
可以看到成功返回含商品信息的结果。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。