常见的反爬机制

常见的基础反爬

1、Headers反爬虫 :Cookie、Referer、User-Agent   
解决方案: 通过F12获取headers,传给requests.get()方法        

2、IP限制 :网站根据IP地址访问频率进行反爬,短时间内进制IP访问   
解决方案:         
	1、构造自己IP代理池,每次访问随机选择代理,经常更新代理池        
	2、购买开放代理或私密代理IP        
	3、降低爬取的速度        

3、User-Agent限制 :类似于IP限制   
解决方案: 构造自己的User-Agent池,每次访问随机选择(或者使用python库生成User—Agent)        

4、Ajax动态加载 :从url加载网页的源代码后,会在浏览器执行JavaScript程序,这些程序会加载更多内容   
解决方案: F12或抓包工具抓包处理
 
5、对查询参数加密   
解决方案: 找到JS文件,分析加密算法,用Python实现加密执行JS文件中的代码,返回加密数据        

6、对响应内容做处理   
解决方案: 打印并查看响应内容,用xpath或正则做处理

7、js加密 时间戳 加密算法等等
解决方案:查看源代码做相应操作
  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值