浅析网站日志LOG文件

  每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的身份。
  例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp。  而每个用户来请求网页时候,也会标志自己的身份:下面的就是用户的身份了
  Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+SE+1.X;+.NET+CLR+2.0
  在查看日志代码中常看到Mozilla/4.0+代码,如下
  2010-04-19 02:47:53 GET /index.html - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.baidu.com/s?tn=request_pg&bs=%B1%A3%B6%A8%BD%DC%B3%AC%B1%A3%BD%E0&f=8&wd=%B1%A3%B6%A8%B1%A3%BD%E0 200 0 7990   2010-04-19 02:47:53 GET /images/bg.gif - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.wz0312.cn/ 200 0 403   2010-04-19 02:47:53 GET /images/tab.gif - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.wz0312.cn/ 200 0 571   2010-04-19 02:47:54 GET /images/bullet.gif - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.wz0312.cn/ 200 0 344   2010-04-19 02:47:54 GET /images/noticebg.gif - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.wz0312.cn/ 200 0 378   2010-04-19 02:47:54 GET /images/icon.gif - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.wz0312.cn/ 200 0 373
  今天给大家解析下他的意思:
  以第一行为例:2010-04-19 02:47:53 GET /index.html - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.baidu.com/s?tn=request_pg&bs=%B1%A3%B6%A8%BD%DC%B3%AC%B1%A3%BD%E0&f=8&wd=%B1%A3%B6%A8%B1%A3%BD%E0 200 0 7990
  2010-04-19 02:47:53为日期和时间
  GET为从服务器获取信息,一般为 GET或者POST
   /index.html 为网站的首页了
  121.19.86.133为ip地址
  HTTP/1.1为文件传输协议1.1
   Mozilla/4.0+表示使用的是与Netspace兼容的Mozilla浏览器
  compatible 适合的;兼用的
  MSIE6.0 微软公司出品的IE浏览器6.0版本
  Windows NT 5.1 微软公司出品的服务器操作系统
  SV1=Security Version 1 安全版本1
  http://www.baidu.com/s?tn=request_pg&bs=%B1%A3%B6%A8%BD%DC%B3%AC%B1%A3%BD%E0&f=8&wd=%B1%A3%B6%A8%B1%A3%BD%E0
   把它复制到地址栏可以看到是百度搜索“保定保洁”排名
  200表示返回状态:200获取成功;400文件没有找到;401需要密码;403禁止查看;500服务器错误
  7990表示文件大小
  附:一些常用代码含义
  200(成功) 服务器已成功处理了请求。 通常,这表示服务器提供了请求的网页。 如果针对您的 robots.txt 文件显示此状态代码,则表示搜索引擎已成功检索到该文件。
  201(已创建) 请求成功并且服务器创建了新的资源。
  202(已接受) 服务器已接受请求,但尚未处理。
  203(非授权信息) 服务器已成功处理了请求,但返回的信息可能来自另一来源。
  205(重置内容) 服务器成功处理了请求,但没有返回任何内容。
  204 响应不同,此响应要求请求者重置文档视图(例如,清除表单内容以输入新内容)。
  206(部分内容) 服务器成功处理了部分 GET 请求
  3xx (重定向)
   300(多种选择) 针对请求,服务器可执行多种操作。 服务器可根据请求者 (user agent) 选择一项操作,或提供操作列表供请求者选择。
  301(永久移动) 请求的网页已永久移动到新位置。 服务器返回此响应(对 GET 或 HEAD 请求的响应)时,会自动将请求者转到新位置。 您应使用此代码告诉 Googlebot 某个网页或网站已永久移动到新位置。
  302(临时移动) 服务器目前从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。 此代码与响应 GET 或 HEAD 请求的 301 代码类似,会自动将请求者转到不同的位置,但您不应使用此代码来告诉 Googlebot 某个网页或网站已经移动,因为 Googlebot 会继续抓取原有位置并编制索引。
  303(查看其他位置) 请求者应当对不同的位置使用单独的 GET 请求来检索响应时,服务器返回此代码。 对于除 HEAD 之外的所有请求,服务器会自动转到其他位置。
  304(未修改) 自从上次请求后,请求的网页未修改过。 服务器返回此响应时,不会返回网页内容。
  305(使用代理) 请求者只能使用代理访问请求的网页。 如果服务器返回此响应,还表示请求者应使用代理。
  307(临时重定向) 服务器目前从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。 此代码与响应 GET 和 HEAD 请求的 301 代码类似,会自动将请求者转到不同的位置,但您不应使用此代码来告诉 Googlebot 某个页面或网站已经移动,因为 Googlebot 会继续抓取原有位置并编制索引。
  {header('HTTP/1.1 301 Moved Permanently');
   header('Location:index.html');}
  意思是/index.php重定向到/index.html
   400(错误请求) 服务器不理解请求的语法。
  401(未授权) 请求要求身份验证。 对于需要登录的网页,服务器可能返回此响应
  403(禁止) 服务器拒绝请求。 如果您在 Googlebot 尝试抓取您网站上的有效网页时看到此状态代码(可以在 Google 网站管理员工具诊断下的网络抓取页面上看到此信息),可能是您的服务器或主机拒绝 Googlebot 访问。
  404(未找到) 服务器找不到请求的网页。 例如,对于服务器上不存在的网页经常会返回此代码。
  500(服务器内部错误) 服务器遇到错误,无法完成请求。  501(尚未实施) 服务器不具备完成请求的功能。 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值