http://www.szit123.com/hy/app/news/html/?201005060011219860.html
一、IIS 日志的设置。
选择“启用日志记录”,勾选,选择“ W3C 扩展 日志文件格式”。
很多 SEO 设置到这里,点击确定之后,发现 IIS 日志已经开始记录,但是无论如何都找不到搜索引擎爬虫的痕迹,类似于 Baiduspider+ 怎么都看不到,其实,我们还应该做第三个辅助步骤,因为默认的 IIS 日志是不开启这个功能的。
有的朋友说 IIS 日志不记录是因为系统 服务 WINDOWS time 没启动,或者系统的权限不正确等,比如 没让 IIS 日志保存的那个文件夹有和 IIS 一样的权限之类,其实没有这么复杂,把下图的“记录访问”选项勾选即可。这样你的 IIS 日志就开始正常记录了。
二、如何分析网站 IIS 日志中的搜索引擎爬虫轨 迹
首先,加入你要搜索百度的爬虫,那么就直接在保存记录的文本文档上搜索“ Baiduspider ”, 我们节选以下一行来做详细的分析:
2009-04-09 13:02:40 W3SVC321 219.148.111.205 GET /index.html - 80 - 61.135.168.39 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64- - www.jidianwubi.com
这段 IIS 日志代码表示:在 2009-04-09 13:02:40 这个时间,百度搜索引擎的蜘蛛( ip 地址为 61.135.168.39 , 后面的 http://www.baidu.com/search/spider.htm 是 关于 Baiduspider+ 的相关问题)访问了服务器 ip 为 219.148.111.205 的 网站 www.jidianwubi.com ,并且抓取了首页 /index.html ,该日志记录保存在 W3SVC321 文件夹。
其中,两个地方值得说明:
一是代码中的 200 表示搜索引擎蜘蛛爬行后返回 HTTP 的状态代码,代表成功爬行并抓取。
各个数字代码的具体意思参见如下:
2xx 成功
200 正常 ; 请 求已完成。
201 正常 ; 紧 接 POST 命令。
202 正常 ; 已 接受用于处理,但处理尚未完成。
203 正常 ; 部 分信息 — 返回的信息只是一部分。
204 正常 ; 无 响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请 求的数据具有新的位置且更改是永久的。
302 已找到 — 请 求的数据临时具有不同 URI 。
303 请参阅其它 — 可 在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未 按预期修改文档。
305 使用代理 — 必 须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不 再使用 ; 保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请 求中有语法问题,或不能满足请求。
401 未授权 — 未 授权客户机访问数据。
402 需要付款 — 表 示计费系统已有效。
403 禁止 — 即 使有授权也不需要访问。
404 找不到 — 服 务器找不到给定的资源 ; 文档不存在。
407 代理认证请求 — 客 户机首先必须使用代理认证自身。
410 请求的网页不存在 ( 永久 );
415 介质类型不受支持 — 服 务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因 为意外情况,服务器不能完成请求。
501 未执行 — 服 务器不支持请求的工具。
502 错误网关 — 服 务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由 于临时过载或维护,服务器无法处理请求。
二是各大搜索引擎爬虫(蜘蛛)的名称整理如下,大家可以对号入座:
1. Google 爬虫名称
1 ) Googlebot :从 Google 的网站 索引和新闻索引中抓取网页
2 ) Googlebot-Mobile 针对 Google 的 移动索引抓取网页
3 ) Googlebot-Image :针对 Google 的 图片索引抓取网页
4 ) Mediapartners-Google :抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广 告的情况下, Google 才会使用此漫游器来抓取您的网站。
5 ) Adsbot-Google :抓取网页来衡量 AdWords 目 标网页的质量。只有在你使用 Google AdWords 为你的网 站做广告的情况下, Google 才会使用此漫游器。
2. 百度( Baidu ) 爬虫名称: Baiduspider
3. 雅虎( Yahoo ) 爬虫名称: Yahoo Slurp
4. 有道( Yodao ) 蜘蛛名称: YodaoBot
5. 搜狗( sogou ) 蜘蛛名称: sogou spider
6. MSN 的蜘蛛名称: Msnbot
其他的搜索引擎我们使用得很少,就不需要理会了:)