十分钟解决爬虫问题！超轻量级反爬虫方案

最新推荐文章于 2023-10-11 10:07:59 发布

置顶

bigsec

最新推荐文章于 2023-10-11 10:07:59 发布

阅读量9.3k

点赞数

文章标签： nginx 爬虫安全反爬虫

本文链接：https://blog.csdn.net/bigsec/article/details/53161590

版权

本文提出了一种简单的反爬虫方案，通过nginx日志收集访问数据，结合iptables进行封禁，并给出简单的爬虫分析策略。该方案在十几分钟内即可生效，适用于紧急情况或作为初步防护措施。

摘要由CSDN通过智能技术生成

本文将描述一种尽量简单的反爬虫方案，可以在十几分钟内解决部分简单的爬虫问题，缓解恶意攻击或者是系统超负荷运行的状况；至于复杂的爬虫以及更精准的防御，需要另外讨论。

爬虫和反爬虫日益成为每家公司的标配系统。爬虫在情报获取、虚假流量、动态定价、恶意攻击、薅羊毛等方面都能起到很关键的作用，所以每家公司都或多或少的需要开发一些爬虫程序，业界在这方面的成熟的方案也非常多;有矛就有盾，每家公司也相应的需要反爬虫系统来达到数据保护、系统稳定性保障、竞争优势保持的目的。

然而，一方面防守这事ROI不好体现，另一方面反爬虫这种系统，相对简单的爬虫来说难度和复杂度都要高很多，往往需要一整套大数据解决方案才能把事情做好，因此只有少量的公司可以玩转起来。当出现问题的时候，很多公司往往束手无策。

本文将描述一种尽量简单的反爬虫方案，可以在十几分钟内解决部分简单的爬虫问题，缓解恶意攻击或者是系统超负荷运行的状况;至于复杂的爬虫以及更精准的防御，需要另外讨论。

整套方案会尽量简单易懂，不会涉及到专门的程序开发，同时尽量利用现有的组件，避免额外组件的引入。内容上主要分为三大部分：

访问数据获取。采集用户的访问数据，用来做爬虫分析的数据源
爬虫封禁。当找到爬虫后，想办法去阻断它后续的访问
爬虫分析。示例通过简单策略来分析出爬虫

简单的数据获取

数据获取是做好反爬虫系统的关键，常见的几种模式

本篇，采用nginx的日志方式，这种只需要通过对常见的nginx最简单的配置就能从远程获取相应的访问日志

官方nginx配置：

  
  
  
   log_format warden '" "$remote_addr" "$remote_port" "$server_addr" "$server_port" "$request_length" "$content_length" "$body_bytes_sent" "$request_uri" "$host" "$http_user_agent" "$status" "$http_cookie" "$request_method" "$http_referer" "$http_x_forwarded_for" "$request_time" "$sent_http_set_cookie" "$content_type" "$upstream_http_content_type" "$request_body"\n'; 
   access_log syslog:server=127.0.0.1:9514 warden ;

tengine配置(编译时带上--with-syslog)

  
  
  
   log_format warden '" "$remote_addr" "$remote_port" "$server_addr" "$server_port" "$request_length" "$content_length" "$body_bytes_sent" "$request_uri" "$host" "$http_user_agent" "$status" "$http_cookie" "$request_method" "$http_referer" "$http_x_forwarded_for" &

最低0.47元/天解锁文章

bigsec

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
十分钟解决爬虫问题！超轻量级反爬虫方案

本文将描述一种尽量简单的反爬虫方案，可以在十几分钟内解决部分简单的爬虫问题，缓解恶意攻击或者是系统超负荷运行的状况；至于复杂的爬虫以及更精准的防御，需要另外讨论。爬虫和反爬虫日益成为每家公司的标配系统。爬虫在情报获取、虚假流量、动态定价、恶意攻击、薅羊毛等方面都能起到很关键的作用，所以每家公司都或多或少的需要开发一些爬虫程序，业界在这方面的成熟的方案也非常多;有矛就
复制链接

扫一扫