常见的反爬虫策略以及反反爬虫策略

最新推荐文章于 2024-08-21 16:03:12 发布

桃桃桃桃桃桃”

最新推荐文章于 2024-08-21 16:03:12 发布

阅读量8.6k

点赞数 9

本文链接：https://blog.csdn.net/weixin_42260204/article/details/81394068

版权

爬虫是一种模拟浏览器对网站发起请求，获取数据的方法。简单的爬虫在抓取网站数据的时候，因为对网站访问过于频繁，给服务器造成过大的压力，容易使网站崩溃，因此网站维护者会通过一些手段避免爬虫的访问，以下是几种常见的反爬虫和反反爬虫策略：

	爬虫	网站
应对策略	对网站发送请求，获取数据	监控发现某段时间访问陡增，ip相同，user-agent都是python，限制访问（不能封ip）
	模拟User-Agent，获取代理IP	访问量仍然异常，要求登录后才能继续访问
	注册账号，访问时带cookie或token	健全账号体系，即只能访问账号下的好友的信息
	注册多个账号，联合爬取	请求过于频繁，进一步限制IP访问频率
	模仿用户操作，限制请求速度	弹出验证码识别
	通过相应的验证码识别手段(如云打码，opencv识别等)	动态加载网站，数据通过js加载，增加网络分析难度
	通过selenium和phantomjs完全模拟浏览器操作