使用Nginx过滤网络爬虫

最新推荐文章于 2023-08-11 09:32:17 发布

创客公元

最新推荐文章于 2023-08-11 09:32:17 发布

阅读量584

点赞数

分类专栏： Nginx 教程文章标签： Nginx

本文链接：https://blog.csdn.net/weixin_37264997/article/details/85092372

版权

Nginx 教程专栏收录该内容

13 篇文章 6 订阅

订阅专栏

现在的网络爬虫越来越多，有很多爬虫都是初学者写的，和搜索引擎的爬虫不一样，他们不懂如何控制速度，结果往往大量消耗服务器资源，导致带宽白白浪费了。

其实Nginx可以非常容易地根据User-Agent过滤请求，我们只需要在需要URL入口位置通过一个简单的正则表达式就可以过滤不符合要求的爬虫请求

    location / {
        if ($http_user_agent ~* "python|curl|java|wget|httpclient|okhttp") {
            return 503;
        }
        # 正常处理
        ...
    }

变量$http_user_agent是一个可以直接在location中引用的Nginx变量。~*表示不区分大小写的正则匹配，通过python就可以过滤掉80%的Python爬虫

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

创客公元

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用Nginx过滤网络爬虫

现在的网络爬虫越来越多，有很多爬虫都是初学者写的，和搜索引擎的爬虫不一样，他们不懂如何控制速度，结果往往大量消耗服务器资源，导致带宽白白浪费了。其实Nginx可以非常容易地根据User-Agent过滤请求，我们只需要在需要URL入口位置通过一个简单的正则表达式就可以过滤不符合要求的爬虫请求 location / { if ($http_user_agent ~* "pyt...
复制链接

扫一扫