如何知道蜘蛛爬过你的网站

http://www.szit123.com/hy/app/news/html/?201005060011219860.html

 

一、IIS 日志的设置。

  第一个步骤:打开 IIS 服务器。选择所要设 置的网站属性。弹出如下窗口:
 

  选择“启用日志记录”,勾选,选择“ W3C 扩展 日志文件格式”。

    第二步骤:再次点击这里的“属性”按钮,常规选项里面, 选择新日志计划为“每天”,当然也可以选择其他,选择好保存日志文件的目录。
        

  很多 SEO 设置到这里,点击确定之后,发现 IIS 日志已经开始记录,但是无论如何都找不到搜索引擎爬虫的痕迹,类似于 Baiduspider+ 怎么都看不到,其实,我们还应该做第三个辅助步骤,因为默认的 IIS 日志是不开启这个功能的。

  第三个步骤:选择高级选项。勾选底下的用户代理( cs(User-Agent) ) 等选项,我一般都将最下面的三个选项勾选起来。这样,你才可以看到百度等爬虫的名称。
 
  第四个步骤:如果你全部按照上面设置之后,发现你的 IIS 日 志还没开始记录,也就是本次困扰了我非常久的问题,那么最重要的一步就是检查相关的设置是否都完整。

有的朋友说 IIS 日志不记录是因为系统 服务 WINDOWS time 没启动,或者系统的权限不正确等,比如 没让 IIS 日志保存的那个文件夹有和 IIS 一样的权限之类,其实没有这么复杂,把下图的“记录访问”选项勾选即可。这样你的 IIS 日志就开始正常记录了。

  二、如何分析网站 IIS 日志中的搜索引擎爬虫轨 迹

  首先,加入你要搜索百度的爬虫,那么就直接在保存记录的文本文档上搜索“ Baiduspider ”, 我们节选以下一行来做详细的分析:

2009-04-09 13:02:40 W3SVC321 219.148.111.205 GET /index.html - 80 - 61.135.168.39 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64- - www.jidianwubi.com

  这段 IIS 日志代码表示:在 2009-04-09 13:02:40 这个时间,百度搜索引擎的蜘蛛( ip 地址为 61.135.168.39 , 后面的 http://www.baidu.com/search/spider.htm 是 关于 Baiduspider+ 的相关问题)访问了服务器 ip219.148.111.205 的 网站 www.jidianwubi.com ,并且抓取了首页 /index.html ,该日志记录保存在 W3SVC321 文件夹。

  其中,两个地方值得说明:

  一是代码中的 200 表示搜索引擎蜘蛛爬行后返回 HTTP 的状态代码,代表成功爬行并抓取。

  各个数字代码的具体意思参见如下:

2xx 成功

200 正常 ; 请 求已完成。

201 正常 ; 紧 接 POST 命令。

202 正常 ; 已 接受用于处理,但处理尚未完成。

203 正常 ; 部 分信息 — 返回的信息只是一部分。

204 正常 ; 无 响应 — 已接收请求,但不存在要回送的信息。

3xx 重定向

301 已移动 — 请 求的数据具有新的位置且更改是永久的。

302 已找到 — 请 求的数据临时具有不同 URI

303 请参阅其它 — 可 在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。

304 未修改 — 未 按预期修改文档。

305 使用代理 — 必 须通过位置字段中提供的代理来访问请求的资源。

306 未使用 — 不 再使用 ; 保留此代码以便将来使用。

4xx 客户机中出现的错误

400 错误请求 — 请 求中有语法问题,或不能满足请求。

401 未授权 — 未 授权客户机访问数据。

402 需要付款 — 表 示计费系统已有效。

403 禁止 — 即 使有授权也不需要访问。

404 找不到 — 服 务器找不到给定的资源 ; 文档不存在。

407 代理认证请求 — 客 户机首先必须使用代理认证自身。

410 请求的网页不存在 ( 永久 );

415 介质类型不受支持 — 服 务器拒绝服务请求,因为不支持请求实体的格式。

5xx 服务器中出现的错误

500 内部错误 — 因 为意外情况,服务器不能完成请求。

501 未执行 — 服 务器不支持请求的工具。

502 错误网关 — 服 务器接收到来自上游服务器的无效响应。

503 无法获得服务 — 由 于临时过载或维护,服务器无法处理请求。

  二是各大搜索引擎爬虫(蜘蛛)的名称整理如下,大家可以对号入座:

1. Google 爬虫名称

1 Googlebot :从 Google 的网站 索引和新闻索引中抓取网页

2 Googlebot-Mobile 针对 Google 的 移动索引抓取网页

3 Googlebot-Image :针对 Google 的 图片索引抓取网页

4 Mediapartners-Google :抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广 告的情况下, Google 才会使用此漫游器来抓取您的网站。

5 Adsbot-Google :抓取网页来衡量 AdWords 目 标网页的质量。只有在你使用 Google AdWords 为你的网 站做广告的情况下, Google 才会使用此漫游器。

2. 百度( Baidu ) 爬虫名称: Baiduspider

3. 雅虎( Yahoo ) 爬虫名称: Yahoo Slurp

4. 有道( Yodao ) 蜘蛛名称: YodaoBot

5. 搜狗( sogou ) 蜘蛛名称: sogou spider

6. MSN 的蜘蛛名称: Msnbot

  其他的搜索引擎我们使用得很少,就不需要理会了:)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值