使用 Nginx 过滤网络爬虫

最新推荐文章于 2024-09-09 12:22:49 发布

gt9000

最新推荐文章于 2024-09-09 12:22:49 发布

阅读量1.8k

点赞数

文章标签： Nginx 爬虫蜻蜓代理代理ip 代理服务器

本文链接：https://blog.csdn.net/gt9000/article/details/79113348

版权

本文介绍了如何使用Nginx通过User-Agent过滤、block IP和rate limit三种方法来应对网络爬虫，减少服务器资源浪费。同时，提到了攻击者可能使用的代理IP对策，并推荐了相关服务。

摘要由CSDN通过智能技术生成

现在有许多初学者学习网络爬虫，但他们不懂得控制速度，导致服务器资源浪费。通过 Nginx 的简单配置，能过滤一小部分这类爬虫。

方法一：通过 User-Agent 过滤

Nginx 参考配置如下：

    location / {
        if ($http_user_agent ~* "scrapy|python|curl|java|wget|httpclient|okhttp") {
            return 503;
        }
        # 正常请求
    }

这里只列出了部分爬虫的 User-Agent，需要更多请参考：GitHub - JayBizzle/Crawler-Detect

注意：User-Agent 很容易修改

方法二：block IP

通过禁止某个 IP 或者某个 IP 段访问，也能起到一定效果。 Nginx 示例配置如下：

deny 178.238.234.1;
deny 1.32.128.0/18;

方法三：rate limit

通过限制某个 IP 的访问频率，避免一部分 CC （Challenge Collapsar）攻击。

Nginx 示例配置如下：

最低0.47元/天解锁文章

gt9000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫