解决简单的反爬问题（使用python）

最新推荐文章于 2024-04-27 16:02:26 发布

weixin_30768175

最新推荐文章于 2024-04-27 16:02:26 发布

阅读量93

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/Hlin/p/9349465.html

版权

一、技术和方法：

1、在请求头headers里设置User-Agent(浏览器内核）；

2、当碰到post请求方式时，一般需要在请求头里设置Cookie的数据；

3、当本机ip由于短时间频繁访问受限时，可以设置代理ip（免费ip推荐西次代理）；

4、如果需要登录的，可以通过fiddler抓包工具抓取登录cookie和表单信息，然后headers设置cookie信息，data设置表单信息；

5、对应动态变化的cookie可以通过cookiejar来获取cookie;

6、使用selenium来模拟真实的浏览器进行获取数据（得到的数据相对比较多）。

二、反爬过程：

1、判断请求的方式，get还是post；

2、如果是get，观察地址栏的变化规律，如果是post请求，请求头一般需要加cookie,data也需要完整的数据；

3、爬取到数据后进行过滤时如果出现数据为空，要注意是否是动态加载，查找的接口是不是不对；

4、如果接口不对，需要通过浏览器的网络接口慢慢查找，注意接口名称和XHR中的接口，通过response一栏的数据来查找；

转载于:https://www.cnblogs.com/Hlin/p/9349465.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注