Apache 是非常优秀的WEB服务端软件,记录百度蜘蛛的访问日志实在太容易了~
第一步,修改 httpd.conf
使用 vim 编辑 /etc/httpd/conf/httpd.conf 找到
#CustomLog "logs/access_log" common
CustomLog "logs/access_log" combined
选择 combined 模式即可,去掉前面的#就OK了。
第二步,修改 vhost.conf
如果你开启了 vhost 功能,还需要修改 vhost.conf。同样使用 vim 编辑 /etc/httpd/conf.d/vhost.conf 。
CustomLog /www/web_log/www.tmd86.com-access.log combined
同样是 combinded 模式即可。
第三步,重启 Apache
使用命令 systemctl restart httpd 即可,可以自己打开网站看看效果,记录示例如下:
162.158.178.63 - - [11/Jul/2019:10:54:24 +0000] "GET /photo/1227.html HTTP/1.1" 200 21222 "http://www.tmd86.com/" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36" 162.158.178.63 - - [11/Jul/2019:10:54:29 +0000] "GET /tag/mieko HTTP/1.1" 200 16728 "http://www.tmd86.com/photo/1227.html" "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
如果 ua 部分出现 spider 字样即是搜索引擎访问记录,当然有些垃圾爬虫会伪装成为搜索引擎UA。
搜索引擎蜘蛛UA列表
Baiduspider 百度
Yisouspider 神马
baidu Transcoder 百度转码