网络爬虫防止被封的策略和反反爬策略简单总结

今天不想工作,比较累,遇到一个网站反爬比较严重,不说具体哪个名字了,简单总结下爬虫防封策略

1,伪装http 头

     chrome 开发者模式,firebug等抓包工具,查看http 进行模拟User-Agent,有的需要加上Referer,可以多加入几个http user

2,代理ip,对于限制ip 或者ip被封的采用代理ip

   代理ip 可以抓取,本人每天监控十多个网站,每天能抓取一批,计划以后每天公布几个可以访问百度的代理ip,注意用高匿的最安全

3,有些需要进行登录

    进行模拟登录,或者手动登录了 记下cookie 天上

4,验证码

       目前有些简单的验证码机器可以识别下,有些不行,需要人工输入,当出现反爬,报警后,再人工干预下

5,注意抓取频度

     这是反爬的一个最简单,但是很实用的方式

6,可以使用拨号的ip,定期拨号更换ip,注意间断一段时间,保证ip变化

7,采用模拟浏览器的一些方式,进行模拟人的行为,包括自动填表,自动点击,自动滑动滚动条等,可以用selenium 和htmlunit 实现,phtomjs 也是一个不错的选择

8,分析网站反爬的一些策略,进行相应的反反爬策略去除,比如有些转为爬虫设置的一些坑,需要识别出来,具体大家可以搜搜一些

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值