反爬策略1:通过UA限制或者其他头信息限制
解决方案:构建用户代理池或其他头信息
反爬策略2:通过访问者IP限制
解决方案:构建IP代理池
反爬策略3:通过验证码限制
解决方案:手工打码、验证码接口自动识别或者通过机器学习自动识别
反爬策略4:通过数据的异步加载限制
解决方案:抓包分析或者使用PhantomJS
反爬策略5:通过Cookie限制
解决方案:进行Cookie处理
反爬策略6:通过JS限制(如请求的数据通过JS随机生成等)
解决方案:分析JS解密或者使用PhantomJS
当然,在使用爬虫时,还是要遵循网站的robots约定,不要对网站造成影响。