相信拥有入门SEO常识的站长都知道,在网站根目录下面写一个robots.txt文件来阻止蜘蛛爬行那些我们并不想被搜索引擎抓取的网页,搜索引擎建议站长使用robots文件的初衷是为了让站长可以主动的控制那些设计到网站用户信息的页面不被抓取,进而导致用户信息泄露,但实际上站长们能在robots文件上做的事情不仅如此。

比如可以在robots文件中写上“sitemap: http://www.seoide.com/sitemap.xml”,这样蜘蛛爬行网站sitemap的几率就会大大增加,因为蜘蛛访问任何一个网站,都会先检查网站是否有robots.txt文件,如果有,就会先读取robots文件里面的内容。另一个,很多站长觉得网站上那些动态网页,JS地址,底部固定信息等URL并不需要被搜索引擎收录,而且容易分散网页权重,于是不惜花费很多时间在robots文件中写了大量的禁止命令来阻止蜘蛛抓取这些“没用”的网页。

但是,笔者通过近期的工作经验来告诉大家,这么做其实未必值得。

早前笔者负责过一个网站,网页非常多,但是收录非常慢,分析日志的时候,发现蜘蛛爬行的频率也不低,就是不收录,相信很多站长也遇到过这样的情况,一般我们会认为是蜘蛛爬行了,也抓取了,只不过还没“放”出来,但是笔者等了一个月,收录依然不见增长,疑惑之余对网站各个环节展开了相信的分析,最终发现,罪魁祸首是网站的robots文件。

建站初期,考虑到很多不规则的URL如动态页面,JS地址,SKIN地址等容易导致蜘蛛优先爬行这类地址,导致爬行其它重要页面的几率减少(蜘蛛在一个网站的停留时间是有限的),所以网站刚上线就在robots文件中写了很多Disallow命令,将网站的动态页面,JS页面,模板相关的URL都禁止掉了,早期没觉得有何不妥,网站收录正常,site结果中也没有很多“不三不四”的页面。

但是渐渐的,笔者发现网站收录停止增长了,实际上我已经向Google提交了多个sitemap,总共10几万的网页,但实际收录就停在了2千多个不再增长,很是奇怪,按理说我提交了那么多地址,怎么着也该收录几万个才对呀。

遇到问题就要着手分析,笔者分析了好几个环节发现都不是导致收录停止增长的原因,最终在一次无意修改robots文件的时候才意识到,极有可能是robots文件的诸多限制导致了收录增长停止。

这么想虽然没有什么依据,但是只要稍微推敲一下,就会发现,这并非无稽之谈。

首先我们知道蜘蛛必须先爬行网页才有可能收录网页,那么蜘蛛在你网站爬行是否顺畅就是一个很重要的问题,假设蜘蛛爬行你网站的时候,遇到很多障碍,爬行受阻,那么很容易想像,这样的网站对于蜘蛛来说并不友好,蜘蛛爬行不畅了,收录自然提高不起来,因为蜘蛛压根爬行不到很多页面。

很简单的一个道理,但是却容易被忽视。意识到有可能是这个问题之后,笔者着手简化robots文件,将原来的10几个命令精简到4个,只保留了几个涉及到账户信息的禁止命令。

修改后不到一周时间,网站收录迅速增加。

可能有读者会说“你把原来不让收录的页面现在开放了,当然收录增加喽”,笔者不否认这点,但是自从开放了很多地址之后,蜘蛛爬行顺畅了,原来一些没被禁止却一直不被收录的页面现在也开始被大量收录了,这就说明蜘蛛爬行顺畅之后,爬行这些标准页面的机会也大大增加了,那么被收录的机会也大大提高了。

其实说了这么多,最核心的SEO知识是:要让蜘蛛能够顺畅的爬行你的网站,不要让任何不必要的环节阻碍了蜘蛛的爬行。

原文来自:http://www.seoide.com/careful-robots-impact-spiders-crawling.html