Nginx防爬虫

最新推荐文章于 2024-09-09 12:22:49 发布

bjgaocp

最新推荐文章于 2024-09-09 12:22:49 发布

阅读量729

点赞数

分类专栏： Nginx

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bjgaocp/article/details/87909957

版权

本文介绍了如何利用Nginx实现防爬虫措施，包括设置robots.txt禁止搜索引擎抓取，通过HTTP_USER_AGENT判断并阻止特定爬虫，以及限制非标准HTTP请求方法。这些方法有助于保护网站资源不被过度抓取。

摘要由CSDN通过智能技术生成

Robots协议爬虫协议通过robots告诉搜索引擎哪些页面可以抓取，哪些不能抓取 robots.txt放到网站根目录
www.taobao.com/robots.txt 查看网站robots
阻止下载协议代理
if ($http_user_agent ~* LWP::Simple|BBBike|wget) {
return 403
}
或编辑网站跟目录下robots.txt文件
vim /application/nginx/html/INNOVATION/robots.txt
User-agent: *
Disallow: /

禁止多数网站爬虫
if ($http_user_agent ~* “qihoobot|baiduspider|googlebot|googlebot-mobile|googlebot-image|mediapartners-google|adsbot-google|yahoo! slurp china|youdaobot|sosospider|sogouspider|sogou web spider|msnbot”) {
return 403
}

nginx限制http请求方法

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

bjgaocp CSDN认证博客专家 CSDN认证企业博客

码龄9年

416: 原创

4万+: 周排名

55万+: 总排名

34万+: 访问

: 等级

6397: 积分

56: 粉丝

93: 获赞

22: 评论

361: 收藏

私信

关注

热门文章

分类专栏

shell 15篇
监控 18篇
Docker 19篇
YUM源 8篇
Windows 1篇
安全 12篇
操作系统 10篇
消息队列
批量管理工具 10篇
虚拟化 2篇
Hadoop 2篇
缓存 5篇
Nginx 38篇
PHP 12篇
MySQL 62篇
存储 18篇
Tomcat 19篇
负载均衡 17篇
高可用 5篇
NoSQL 23篇
版本控制 12篇
日志收集 9篇
Linux 61篇
网络 31篇
HTTPD 1篇
工作中遇到问题 13篇

最新评论

FTP使用端口
知足常乐2021: 学习了，是正解
分析图片服务日志.把日志(每个圈片访问次致.图片大小的总和)排行，取top10
beiqi_2323: [root@richiewen scripts]# awk ' BEGIN{IGNORECASE=1} /BMP|JPG|JPEG|PNG|GIF/ {S[$1]++;B[$1]+=$10}END{for(k in S) print S[k]*B[k],k}' access-test.log|sort -nr|head 1224 10.0.0.198 612 10.0.0.1 过滤图片访问日志获取各IP访问次数和图片大小总和再打印
中标麒麟配置YUM源
码海泛舟采莲子: mark，谢谢
Nginx限制最大连接数、请求速率、下载速度
Tisfy: 我曾经流连于宋元的词曲，但刚发现此文甚妙！
动态路由协议RIP
不吃西红柿丶: 大佬写得很棒，忍不住就是一个赞，欢迎回赞哦~

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。