如何读取网络日志的方法

所谓的网络日志就是搜索引擎爬虫爬取网站页面的一种记录,通过查看网络日志我们可以分析蜘蛛爬行有无异常,从而得知网站是否产生对搜索引擎的不友好度。此外还可以查看网友的访问记录。网络日志对网站的安全也起着监管左右,如果某个IP访问量过大,就有可能是想侵入后台系统或者其他危害网站安全的行为。
 
网络日志是一种存文本形式,在空间商提供的后台就可以下载,一般的命名是ex某年某月某日.log。通过记事本我们就能打开它。那么究竟该如何读取呢?这才是 ZAC今天想要告诉大家的。
 
就从嘉兴SEO的博客说起。我们先在日志里复制一段出来:
2011-10-19 23:46:34 W3SVC103 175.41.23.4 GET /ZAC/54.html - 80 - 123.125.71.33 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200  1236 0 292
 
第一段表示的自然是时间.
W3SVC103表示万维网不用去管它。
175.41.23.4网站服务器的IP地址
GET:指服务器所作的动作,get的意思是获取
/ZAC/.54html:我博客中的文件
80:东八区
Baiduspider+(+http://www.baidu.com/search/spider.htm) :百度蜘蛛。关于其他爬虫的名字我在之前 如何写robots的博文里说到过。
 
其他蜘蛛的类型表现形式为:
Baiduspider+(+http://www.baidu.com/search/spider.htm) 百度蜘蛛
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) 雅虎中国蜘蛛
Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp) 英文雅虎蜘蛛
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) Google蜘蛛
 msnbot/1.1 (+http://search.msn.com/msnbot.htm) 微软 Bing蜘蛛
 Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07)搜狗蜘蛛
 Sosospider+(+http://help.soso.com/webspider.htm) 搜搜蜘蛛
Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; ) 有道蜘蛛
 
200:指百度蜘蛛成功获取了此文件。这这里要着重说明下:
200:成功抓取了文件
301:永远转向
302:暂时转向
304:未抓取
400:非法请求
401:无法访问
403:禁止访问
500:服务器内部错误
503:服务器没有应答
 
1236 0 292:这里指的是文件的大小,单位是字节。
 
这里分析的是百度蜘蛛的爬取,其他搜索引擎跟蜘蛛大体一致。
 
除了爬去页面之外(上面介绍的是zac/54html这个页面)蜘蛛还会爬行网站系统的文件。比如:
2011-10-19 00:35:23 W3SVC103 175.41.23.4 GET /themes/j-spring/style/j-spring/nav_bg1.gif-80-115.229.31.105 Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US)+AppleWebKit/534.16+(KHTML,+like+Gecko)+Chrome/10.0.648.205+Safari/534.16 200 0 0 439 453
 
/themes/j-spring/style/j-spring/nav_bg1.gif:指的是文件,这里是一个gif的图片
Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+en-US):用户电脑配置。蜘蛛爬行其实是模拟用户访问的方式来爬行的。这里表示的意思是:
Mozilla/5.0+:与Ntescape兼容的Mozilla浏览器
Windows;+U:在美国的Windows系统
Windows+NT+5.1操作系统,这里是Windows XP,因为XP的内核是NT5.1
en-US:语言是美国英语
AppleWebKit:苹果浏览器
KHTML,+like+Gecko:一种代码,我也不太懂,这里不做介绍
Chrome:谷歌浏览器
Safari:Safari浏览器
 
这里搜索引擎会以各种浏览器的身份去访问网站的文件,这里一共用到了苹果浏览器,谷歌浏览器和Safari浏览器。
 
当然蜘蛛还会以其他浏览器的身份访问,比如说火狐,IE,360,等等。

本文系嘉兴SEO原创文章,原文地址:http://www.zbseoer.com/ZAC/log.html
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值