SEO学习笔记之实例解析Robots和各种蜘蛛

 

搞网站,多少都要懂一些SEO。继续学习相关的知识,结合本站小研究了一下。

下图是本站游戏作坊 http://www.bcbgame.com 统计图中截取的。

 


 

先看第一条数据,也就是排行老大,Googlebot 也就是Google的机器人(还是叫蜘蛛吧),爬了我二千多文件,且日期比较新,就是昨天的,说明还是比较活跃的哈。
而且成功访问robots 达到17次,这点也说明了Google对本站的收录还是比较得力的,我是和百度相比而已。 毕竟Google 已经收录了上千条。从这里的数据也就看出来了。


再看第二条数据,访问蛮频繁,但是不知到来路,难道是病毒?这个留待以后再调查。排行第三的就是百度蜘蛛:Baiduspider 。

还有一个访问robots比较频繁的就是另外一个无名蜘蛛了,是不是病毒啊啥的。

还有那个Bspider不知道哪里的蜘蛛,不知道来路,暂且留着吧。反正没耗多少流量,爱爬就爬吧。嘻嘻~~但是如果那种未知的蜘蛛耗费流量大了,就要想办法干掉。


再说说Msnbot,难怪Bing收录的少呢,原来这个蜘蛛太懒,半个月才爬一次,不过今天处理了下,过几天看下效果。


alexa蜘蛛也不积极,难怪本站排名又下降了20万,呵呵。

 

关于robots,下面的资料供参考,利用google的网站管理员工具对此可以检测。


robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt文件的格式  
User-agent: 定义搜索引擎的类型  
Disallow: 定义禁止搜索引擎收录的地址  
Allow: 定义允许搜索引擎收录的地址  

我们常用的搜索引擎类型有:
(User-agent区分大小写)  
google蜘蛛:Googlebot  
百度蜘蛛:Baiduspider  
yahoo蜘蛛:Yahoo!slurp  
alexa蜘蛛:ia_archiver  
bing蜘蛛:MSNbot  
altavista蜘蛛:scooter  
lycos蜘蛛:lycos_spider_(t-rex)  
alltheweb蜘蛛:fast-webcrawler  
inktomi蜘蛛: slurp  
Soso蜘蛛:Sosospider  
Google Adsense蜘蛛:Mediapartners-Google  
有道蜘蛛:YoudaoBot

 

robots.txt文件的写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符  
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录  
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 
 Disallow: /*?* 禁止访问网站中所有的动态页面  
Disallow: /jpg$ 禁止抓取网页所有的.jpg格式的图片  
Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html文件。  
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录  
Allow: /tmp 这里定义是允许爬寻tmp的整个目录  
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。  
Allow: .gif$ 允许抓取网页和gif格式图片

此外,其实robots也是是支持网站地图这个功能的

Sitemap: http://www.bcbgame.com/sitemaps/sitemaps_1.xml

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值