如何知道蜘蛛爬过你的网站

最新推荐文章于 2024-07-12 09:01:15 发布

lovedelphi2006

最新推荐文章于 2024-07-12 09:01:15 发布

阅读量1.2k

点赞数

分类专栏： SEO 文章标签： iis 搜索引擎服务器 google yahoo 百度

SEO 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

http://www.szit123.com/hy/app/news/html/?201005060011219860.html

一、IIS 日志的设置。

　　第一个步骤：打开 IIS 服务器。选择所要设置的网站属性。弹出如下窗口：

　　选择“启用日志记录”，勾选，选择“ W3C 扩展日志文件格式”。

　　第二步骤：再次点击这里的“属性”按钮，常规选项里面，选择新日志计划为“每天”，当然也可以选择其他，选择好保存日志文件的目录。

　　很多 SEO 设置到这里，点击确定之后，发现 IIS 日志已经开始记录，但是无论如何都找不到搜索引擎爬虫的痕迹，类似于 Baiduspider+ 怎么都看不到，其实，我们还应该做第三个辅助步骤，因为默认的 IIS 日志是不开启这个功能的。

　　第三个步骤：选择高级选项。勾选底下的用户代理（ cs(User-Agent) ）等选项，我一般都将最下面的三个选项勾选起来。这样，你才可以看到百度等爬虫的名称。

　　第四个步骤：如果你全部按照上面设置之后，发现你的 IIS 日志还没开始记录，也就是本次困扰了我非常久的问题，那么最重要的一步就是检查相关的设置是否都完整。

有的朋友说 IIS 日志不记录是因为系统服务 WINDOWS time 没启动，或者系统的权限不正确等，比如没让 IIS 日志保存的那个文件夹有和 IIS 一样的权限之类，其实没有这么复杂，把下图的“记录访问”选项勾选即可。这样你的 IIS 日志就开始正常记录了。

　　二、如何分析网站 IIS 日志中的搜索引擎爬虫轨迹

　　首先，加入你要搜索百度的爬虫，那么就直接在保存记录的文本文档上搜索“ Baiduspider ”，我们节选以下一行来做详细的分析：

2009-04-09 13:02:40 W3SVC321 219.148.111.205 GET /index.html - 80 - 61.135.168.39 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64- - www.jidianwubi.com

　　这段 IIS 日志代码表示：在 2009-04-09 13:02:40 这个时间，百度搜索引擎的蜘蛛（ ip 地址为 61.135.168.39 ，后面的 http://www.baidu.com/search/spider.htm 是关于 Baiduspider+ 的相关问题）访问了服务器 ip 为 219.148.111.205 的网站 www.jidianwubi.com ，并且抓取了首页 /index.html ，该日志记录保存在 W3SVC321 文件夹。

　　其中，两个地方值得说明：

　　一是代码中的 200 表示搜索引擎蜘蛛爬行后返回 HTTP 的状态代码，代表成功爬行并抓取。

　　各个数字代码的具体意思参见如下：

2xx 成功

200 正常 ; 请求已完成。

201 正常 ; 紧接 POST 命令。

202 正常 ; 已接受用于处理，但处理尚未完成。

203 正常 ; 部分信息 — 返回的信息只是一部分。

204 正常 ; 无响应 — 已接收请求，但不存在要回送的信息。

3xx 重定向

301 已移动 — 请求的数据具有新的位置且更改是永久的。

302 已找到 — 请求的数据临时具有不同 URI 。

303 请参阅其它 — 可在另一 URI 下找到对请求的响应，且应使用 GET 方法检索此响应。

304 未修改 — 未按预期修改文档。

305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。

306 未使用 — 不再使用 ; 保留此代码以便将来使用。

4xx 客户机中出现的错误

400 错误请求 — 请求中有语法问题，或不能满足请求。

401 未授权 — 未授权客户机访问数据。

402 需要付款 — 表示计费系统已有效。

403 禁止 — 即使有授权也不需要访问。

404 找不到 — 服务器找不到给定的资源 ; 文档不存在。

407 代理认证请求 — 客户机首先必须使用代理认证自身。

410 请求的网页不存在 ( 永久 );

415 介质类型不受支持 — 服务器拒绝服务请求，因为不支持请求实体的格式。

5xx 服务器中出现的错误

500 内部错误 — 因为意外情况，服务器不能完成请求。

501 未执行 — 服务器不支持请求的工具。

502 错误网关 — 服务器接收到来自上游服务器的无效响应。

503 无法获得服务 — 由于临时过载或维护，服务器无法处理请求。

　　二是各大搜索引擎爬虫（蜘蛛）的名称整理如下，大家可以对号入座：

1. Google 爬虫名称

1 ） Googlebot ：从 Google 的网站索引和新闻索引中抓取网页

2 ） Googlebot-Mobile 针对 Google 的移动索引抓取网页

3 ） Googlebot-Image ：针对 Google 的图片索引抓取网页

4 ） Mediapartners-Google ：抓取网页确定 AdSense 的内容。只有在你的网站上展示 AdSense 广告的情况下， Google 才会使用此漫游器来抓取您的网站。

5 ） Adsbot-Google ：抓取网页来衡量 AdWords 目标网页的质量。只有在你使用 Google AdWords 为你的网站做广告的情况下， Google 才会使用此漫游器。

2. 百度（ Baidu ）爬虫名称： Baiduspider

3. 雅虎（ Yahoo ）爬虫名称： Yahoo Slurp

4. 有道（ Yodao ）蜘蛛名称： YodaoBot

5. 搜狗（ sogou ）蜘蛛名称： sogou spider

6. MSN 的蜘蛛名称： Msnbot

　　其他的搜索引擎我们使用得很少，就不需要理会了：）

lovedelphi2006

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
如何知道蜘蛛爬过你的网站

 http://www.szit123.com/hy/app/news/html/?201005060011219860.html 一、IIS日志的设置。　　第一个步骤：打开IIS服务器。选择所要设置的网站属性。弹出如下窗口： 　　选择“启用日志记录”，勾选，选择“W3C扩展日志文件格式”。　　第二步骤：再次点击这里的“属性”按钮，常规选项里面，选择新日志计划为“每天”，当然也可以选择其他，选择好保存日志文件的目录。 　
复制链接

扫一扫