Robots协议 爬虫协议 通过robots告诉搜索引擎哪些页面可以抓取,哪些不能抓取 robots.txt放到网站根目录
www.taobao.com/robots.txt 查看网站robots
阻止下载协议代理
if ($http_user_agent ~* LWP::Simple|BBBike|wget) {
return 403
}
或编辑网站跟目录下robots.txt文件
vim /application/nginx/html/INNOVATION/robots.txt
User-agent: *
Disallow: /
禁止多数网站爬虫
if ($http_user_agent ~* “qihoobot|baiduspider|googlebot|googlebot-mobile|googlebot-image|mediapartners-google|adsbot-google|yahoo! slurp china|youdaobot|sosospider|sogouspider|sogou web spider|msnbot”) {
return 403
}
nginx限制http请求方法
r e q u e s t