马蜂窝爬虫分享
今天早上爬马蜂窝的数据,还在检查报错的时候,就发现自己的ip被ban,真心惨,数据没拿到,ip还被封,新手太天真,“挑逗”这种大型内容分享平台的反爬虫,因此想做一个简单的总结,希望自己的经验可以对大家,以及自己以后的爬虫之旅有帮助
user_agent+cookie,不够使
1.这次并不是完全的裸爬。稍微带了点伪装,还是被发现了。马蜂窝必带cookie,不然会报502。但是它的cookie失效的特别快,大概5min左右吧,所以相对于带cookie爬,个人建议先准备一大堆cookie,或者使用session?这两个都没有尝试。
2.个人推荐还是使用代理ip,本人的ip被封了大概1hour,才解封,so,代理ip是必要的