由于网站需要进行防止内容抓取,就要对各大引擎的user-agent进行判断,自己搜索了一下
各大搜索引擎的User-agent
google (Googlebot)baidu (Baiduspider)
soso (Sosospider)
sogou (Sogou web spider)
yahoo (Yahoo! Slurp China)
bing (bingbot)
nginx日志格式:
默认格式:
log_format combined '$remote_addr - $remote_user [$time_local] '
'"$request" $status $body_bytes_sent '
'"$http_referer" "$http_user_agent"';
远程地址 远程用户 时间 请求方式及文件 状态 发送字节 发送者(应该是表明从哪个页面发送过来的) 搜索引擎别名及浏览器的一些信息