Nginx 防爬虫（Anti-Scraping）实战指南：构建高效的第一道防线

原创已于 2025-11-20 14:21:30 修改 · 794 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#nginx #爬虫 #运维

于 2025-11-20 11:59:17 首次发布

后端技术栈同时被 3 个专栏收录

139 篇文章

订阅专栏

实战总结

125 篇文章

订阅专栏

程序人生

43 篇文章

订阅专栏

用Python抓取ZLibrary元数据 5k人浏览 6人参与

文章目录

Nginx 防爬虫（Anti-Scraping）实战指南：构建高效的第一道防线

Nginx 防爬虫（Anti-Scraping）实战指南：构建高效的第一道防线

作者：刘一说
适用对象：Web 开发者、运维工程师、安全团队、技术负责人
更新时间：2025 年 11 月

在数据价值日益凸显的今天，网站内容被恶意爬取已成为普遍风险。轻则增加服务器负载，重则导致核心数据泄露、商业竞争力受损。Nginx 作为 Web 流量的入口网关，虽非专业反爬系统，但凭借其高性能、灵活配置和低延迟特性，可构建一道低成本、高效率的防爬第一道防线。

本文将系统阐述 Nginx 在防爬虫方面的六大核心能力，提供可直接落地的配置示例、深度注解、注意事项及生产级推荐策略，助你有效抵御 80% 以上的中低复杂度爬虫。

一、基础识别与拦截：快速过滤低级爬虫

1.1 User-Agent 特征匹配

大多数脚本类爬虫（如 Python requests、Java HttpURLConnection、Go net/http）会暴露明显 UA 特征。

# 拦截常见自动化工具 UA
if ($http_user_agent ~* "(python-requests|urllib|java/|go-http-client|node-superagent|axios|okhttp|scrapy|crawlpy|puppeteer|headlesschrome)") {
    return 403;
}

# 拦截空 User-Agent（真实浏览器极少为空）
if ($http_user_agent = "") {
    return 403;
}

✅ 注解：

~* 表示不区分大小写的正则匹配；
返回 403 明确拒绝；也可用 444（Nginx 特有状态码，直接关闭连接，不返回响应）降低带宽消耗。

⚠️ 注意事项：

切勿拦截所有含 “bot” 的 UA：Googlebot、Bingbot 等合法搜索引擎也会被误杀；
高级爬虫可轻松伪造 UA（如模拟 Chrome），此方法仅对初级爬虫有效。

1.2 Referer 与请求头完整性校验

真实用户通常通过页面跳转访问资源，而爬虫常直接请求 API 或图片。

# 示例：保护 API 接口，要求来自本站页面
location /api/user-data {
    # 允许无 Referer（如直接打开页面）或来自本站
    valid_referers none blocked example.com *.example.com;
    if ($invalid_referer) {
        return 403;
    }
}

# 检查关键请求头是否存在（真实浏览器通常包含）
# 检查 Accept 头是否为空
if ($http_accept = "") {
    return 403;
}

# 检查 Accept-Language 头是否为空
if ($http_accept_language = "") {
    return 403;
}

🔍 原理：现代浏览器在发起请求时会自动携带 Accept、Accept-Language、Accept-Encoding 等头，而简单脚本常忽略这些字段。

二、行为分析与速率控制：限制高频异常行为

爬虫的核心特征是高频率、高并发、无交互。Nginx 的限流机制可有效压制此类行为。

2.1 请求频率限制（Rate Limiting）

# 定义限流区域：基于客户端 IP，10MB 内存可存储约 16 万 IP
limit_req_zone $binary_remote_addr zone=crawl_protect:10m rate=5r/s;

server {
    # 对全站通用限流
    location / {
        limit_req zone=crawl_protect burst=10 nodelay;
    }

    # 对敏感路径更严格限制（如搜索、商品列表）
    location ~ ^/(search|product|list)/ {
        limit_req zone=crawl_protect burst=3;
        # 超出限流时返回 429（Too Many Requests）
        limit_req_status 429;
    }
}

📌 参数说明：

rate=5r/s：每秒平均允许 5 个请求；
burst=10：令牌桶容量为 10，允许突发流量；
nodelay：突发请求立即处理（否则会排队延迟）；
limit_req_status：自定义超限返回码（默认 503）。

2.2 并发连接数限制

防止单 IP 建立大量 TCP 连接耗尽资源：

limit_conn_zone $binary_remote_addr zone=conn_per_ip:10m;

server {
    location / {
        limit_conn conn_per_ip 5;  # 每个 IP 最多 5 个并发连接
    }
}

💡 适用于下载站、视频站等易被并发抓取的场景。

三、高级识别技巧：识别伪装浏览器

高级爬虫（如 Puppeteer、Playwright）会模拟完整浏览器环境，但仍可能暴露细微特征。

3.1 检测 Headless 浏览器

无头浏览器常包含特定标识：

# 拦截明确的 Headless Chrome
if ($http_user_agent ~* "HeadlessChrome") {
    return 403;
}

# 检测缺失 WebGL、WebRTC 等能力（需前端配合注入特征，Nginx 无法直接检测）
# → 此类检测需后端或 JS 完成，Nginx 仅能辅助

3.2 请求头组合异常检测

真实浏览器请求头具有高度一致性，而爬虫可能遗漏某些字段：

# 示例：Chrome 浏览器通常包含以下头组合
# 若 UA 是 Chrome，但缺少 Sec-CH-UA 或其他现代头，可能为伪造
if ($http_user_agent ~* "Chrome") {
    if ($http_sec_ch_ua = "") {
        # 可记录日志或限流，不建议直接拦截（兼容性风险）
        access_log /var/log/nginx/suspicious_ua.log;
    }
}

⚠️ 警告：此类规则极易误伤旧版浏览器或隐私模式用户，建议仅用于日志分析，而非直接拦截。

四、动态挑战机制（需扩展支持）

标准 Nginx 功能有限，但结合 OpenResty（Nginx + Lua） 可实现动态反爬逻辑。

4.1 触发验证码挑战

# OpenResty 配置示例
location / {
    access_by_lua_block {
        local ua = ngx.var.http_user_agent
        -- 若 UA 含可疑关键词
        if ua and string.find(ua, "python", 1, true) then
            -- 重定向到验证码页
            ngx.redirect("/captcha?redirect=" .. ngx.escape_uri(ngx.var.request_uri))
        end
    }
}

4.2 响应延迟（Tarpitting）

对可疑请求故意延迟响应，消耗爬虫资源：

access_by_lua_block {
    if ngx.var.http_user_agent and string.match(ngx.var.http_user_agent, "bot") then
        ngx.sleep(3)  -- 延迟 3 秒
    end
}

📌 适用场景：对抗分布式爬虫成本极高，但对单点脚本效果显著。

五、日志分析与自动封禁：实现闭环防御

5.1 结构化日志记录

便于后续分析爬虫行为模式：

log_format anti_scrape '$remote_addr - [$time_local] '
                       '"$request" status:$status '
                       'ua:"$http_user_agent" '
                       'ref:"$http_referer" '
                       'req_time:$request_time '
                       'upstream:$upstream_response_time';

access_log /var/log/nginx/anti_scrape.log anti_scrape;

5.2 与 Fail2ban 联动自动封 IP

Fail2ban 监控日志，自动调用 iptables 封禁恶意 IP：

# /etc/fail2ban/filter.d/nginx-anti-scrape.conf
[Definition]
failregex = ^<HOST>.*"(GET|POST).*" (403|444) .*(python|java|scrapy|bot)

# /etc/fail2ban/jail.local
[nginx-anti-scrape]
enabled = true
port = http,https
filter = nginx-anti-scrape
logpath = /var/log/nginx/access.log
maxretry = 5
findtime = 60    # 60 秒内触发 5 次即封
bantime = 86400  # 封禁 24 小时

✅ 优势：实现“检测 → 封禁”自动化，大幅降低人工干预成本。

六、常见问题与最佳实践

❓ Q1：如何避免误伤搜索引擎？

答：显式放行主流爬虫：

if ($http_user_agent ~* "Googlebot|Bingbot|YandexBot|Baiduspider|Sogou|360Spider") {
    break;  # 跳过后续拦截规则
}

同时可通过 Google Search Console 验证抓取是否正常。

❓ Q2：CDN/代理环境下如何获取真实 IP？

答：使用 real_ip 模块：

set_real_ip_from 103.21.244.0/22;   # Cloudflare IP 段
set_real_ip_from 192.168.0.0/16;    # 内网代理
real_ip_header CF-Connecting-IP;    # Cloudflare
# 或 real_ip_header X-Forwarded-For; （通用）

❓ Q3：Nginx 能防住 Selenium/Puppeteer 吗？

答：不能完全防住。此类工具可完美模拟浏览器，需结合：

后端 Token 验证（如每次请求需带动态 token）
前端行为验证（鼠标轨迹、点击节奏）
数据混淆（字段名随机化、接口参数加密）

✅ 推荐生产级组合策略

# 1. 放行合法搜索引擎
if ($http_user_agent ~* "Googlebot|Bingbot|YandexBot|Baiduspider") {
    break;
}

# 2. 拦截明显恶意 UA 和空 UA
if ($http_user_agent ~* "(python|java/|go-http|axios|okhttp|scrapy|crawl|headlesschrome)" ||
    $http_user_agent = "") {
    return 403;
}

# 3. 检查关键请求头完整性
if ($http_accept = "" || $http_accept_language = "") {
    return 403;
}

# 4. 全局限流
limit_req_zone $binary_remote_addr zone=crawl:10m rate=6r/s;
location / {
    limit_req zone=crawl burst=10 nodelay;
}

# 5. 敏感路径加强防护
location ~ ^/(api|search|product)/ {
    limit_req zone=crawl burst=3;
    # 可选：记录可疑请求
    if ($http_user_agent ~* "bot") {
        access_log /var/log/nginx/suspicious.log;
    }
}