所谓的网络日志就是搜索引擎爬虫爬取网站页面的一种记录,通过查看网络日志我们可以分析蜘蛛爬行有无异常,从而得知网站是否产生对搜索引擎的不友好度。此外还可以查看网友的访问记录。网络日志对网站的安全也起着监管左右,如果某个IP访问量过大,就有可能是想侵入后台系统或者其他危害网站安全的行为。
网络日志是一种存文本形式,在空间商提供的后台就可以下载,一般的命名是ex某年某月某日.log。通过记事本我们就能打开它。那么究竟该如何读取呢?这才是
ZAC今天想要告诉大家的。
就从嘉兴SEO的博客说起。我们先在日志里复制一段出来:
2011-10-19 23:46:34 W3SVC103 175.41.23.4 GET /ZAC/54.html - 80 - 123.125.71.33 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 1236 0 292
第一段表示的自然是时间.
W3SVC103表示万维网不用去管它。
175.41.23.4网站服务器的IP地址
GET:指服务器所作的动作,get的意思是获取
/ZAC/.54html:我博客中的文件
80:东八区
Baiduspider+(+http://www.baidu.com/search/spider.htm) :百度蜘蛛。关于其他爬虫的名字我在之前
如何写robots的博文里说到过。
其他蜘蛛的类型表现形式为:
Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) 雅虎中国蜘蛛
Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) 英文雅虎蜘蛛
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Google蜘蛛
msnbot/1.1 (+http://search.msn.com/msnbot.htm) 微软 Bing蜘蛛
Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07)搜狗蜘蛛
Sosospider+(+http://help.soso.com/webspider.htm) 搜搜蜘蛛
Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; ) 有道蜘蛛
200:指百度蜘蛛成功获取了此文件。这这里要着重说明下:
200:成功抓取了文件
301:永远转向
302:暂时转向
304:未抓取
400:非法请求
401:无法访问
403:禁止访问
500:服务器内部错误
503:服务器没有应答
1236 0 292:这里指的是文件的大小,单位是字节。
这里分析的是百度蜘蛛的爬取,其他搜索引擎跟蜘蛛大体一致。
除了爬去页面之外(上面介绍的是zac/54html这个页面)蜘蛛还会爬行网站系统的文件。比如:
2011-10-19 00:35:23 W3SVC103 175.41.23.4 GET /themes/j-spring/style/j-spring/nav_bg1.gif-80-115.229.31.105 Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US)+AppleWebKit/534.16+(KHTML,+like+Gecko)+Chrome/10.0.648.205+Safari/534.16 200 0 0 439 453
/themes/j-spring/style/j-spring/nav_bg1.gif:指的是文件,这里是一个gif的图片
Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US):用户电脑配置。蜘蛛爬行其实是模拟用户访问的方式来爬行的。这里表示的意思是:
Mozilla/5.0+:与Ntescape兼容的Mozilla浏览器
Windows;+U:在美国的Windows系统
Windows+NT+5.1操作系统,这里是Windows XP,因为XP的内核是NT5.1
en-US:语言是美国英语
AppleWebKit:苹果浏览器
KHTML,+like+Gecko:一种代码,我也不太懂,这里不做介绍
Chrome:谷歌浏览器
Safari:Safari浏览器
这里搜索引擎会以各种浏览器的身份去访问网站的文件,这里一共用到了苹果浏览器,谷歌浏览器和Safari浏览器。
当然蜘蛛还会以其他浏览器的身份访问,比如说火狐,IE,360,等等。
本文系嘉兴SEO原创文章,原文地址:http://www.zbseoer.com/ZAC/log.html