昨天是星期四,作为一个站长,星期四意味着怎么呢?星期四的时候百度会有一次大调整,所以星期四最好就是更新一些新的内容,好让baiduspider爬到。
先说昨天,昨天因为这个情况,我一时兴起想查看一下百度蜘蛛是否爬过我的站点,于是我在后台找了半天也没有找到,用FTP上传软件在根目录下也没有别人说的所谓的log文件夹,这可能是因为我用的wordpress缘故吧。找的过程走了很多弯路,不管百度和google上面搜索的文章都是千篇一律,我愣是没有找到。在群里咨询也没有人告诉我。知道今天有人告诉我要用笔记本打开MC-DOC文件。这才查看到。
步骤如图:
(4)用笔记本打开MS-DOC文件,查找baiduspider
[19/May/2011:07:43:07 -0700] "GET / HTTP/1.1" 200 13357 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
比如我的网址是www.cndwzone.com这就意味着百度蜘蛛在19/May/2011:07:43:07爬过,200 13357中的200协议代码代表了请求已完成也就是它发现这页并以入库了。19/May/2011:07:43:07-0700是日期,也就是蜘蛛来的日期和时间了。GET / HTTP/1.1" 200 13357 访问的页面 get表示获取200表示抓取成功。Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)是百度蜘蛛了。
那么究竟什么是spider?(引擎蜘蛛) spider是搜索引擎的一个自动程序。它的作用是访问互联网上的html网页,建立索引数据库,使用户能在搜索引擎中搜索到您网站的网页。
百度/谷歌等常用蜘蛛的识别:
百度的蜘蛛:baiduspider
Google的蜘蛛: Googlebot
腾讯Soso:Sosospider
Yahoo的蜘蛛:Yahoo Slurp
Msn的蜘蛛:Msnbot
Altavista的蜘蛛:Scooter
Lycos的蜘蛛: Lycos_Spider_(T-Rex)
如何查看百度蜘蛛是否来过我的网站,尤其对于长期不收录,百度快照不更新的新站来说,查看百度蜘蛛是否来过我的网站就很重要了,如果蜘蛛没有来,那就不要谈收录了,解决的办法就是尽快引开蜘蛛了,如果蜘蛛爬过了,要检查下网站是否存在一些百度不收录的原因,比如过度优化。以上都没有,就要等了,等百度大更新时,收录自然就有了!那么如何查看百度蜘蛛蜘蛛爬行记录?
(1)、对于某些特定的网站源码程序,后台具体百度蜘蛛(baiduspider)等搜索引擎蜘蛛爬行统计,新手可以完全在后台上面看得到,但是一般来讲,这个记录只统计爬行的次数等,无法更进一步对网站进行更进一步的优化;
(2)、下载百度蜘蛛统计软件也可以,有些统计软件的功能非常好用,比如百度每天来访多少次,谷歌蜘蛛来访多少次,百度蜘蛛IP,优化建议等都有,但是每款百度蜘蛛统计软件都是有缺陷的,凡是软件安装在服务器或是作为插件装在网站程序上面都会造成服务器的负担,另外效果方面肯定也是没有最原始的IIS数据来的可观实用;
(3)、在服务器上面直接查看IIS日志,这是最原始,也是最好用的第一手资料,本站在此强烈推荐!在IIS日志里,你可以看到百度谷歌等所有搜索引擎的来访记录,比如来访时间,访问网址,蜘蛛的IP,蜘蛛的详细名称或网址目录,访问结果等,一目了然,你可以据此对网站进行各方面军的优化。具体操作方法:记事本打开IIS日志内容,然后用ctrl+F查找Baiduspider,如果发现有Baiduspider 就说明百度蜘蛛爬行过,反之则没有。
以下是百度蜘蛛爬行检测代码意思:
2xx 成功
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的网页不存在(永久);
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。
根据这些可以多查看iis日志,研究蜘蛛爬行的路径,找出自己网站存在的问题,进而改正。相信好的网站会有好的排名。
对于长期不收录,百度快照不更新的新站来说,查看百度蜘蛛是否来过我的网站就很重要了,如果蜘蛛没有来,那就不要谈收录了,解决的办法就是尽快引开蜘蛛了,如果蜘蛛爬过了,要检查下网站是否存在一些百度不收录的原因,比如过度优化。以上都没有,就要等了,等百度大更新时,收录自然就有了!学会如何查看百度蜘蛛爬行记录是作为站长必须掌握的。
本文地址:http://www.cndwzone.com/archives/460.html
本站文章如无特别说明,皆为本人原创,转载请以链接形式注明原始出处和作者,谢绝不尊重版权者抄袭!