最近在做一个网站,因为域名要备案所以就没有直接放上去,而是放到一个二级域名上,test.XXXX.com,因为是测试的域名所以不希望百度收录 robots.txt的文件内容为
User-agent:* Disallow:/ Disallow:/go/*结果发现百度收录了这个二级域名,然后site了一下,发现只有首页,百度难道不怎么遵守robots,百度百科里的描述
百度对robots.txt是有反应的,但比较慢,在减少禁止目录抓取的同时也减少了正常目录的抓取。
原因应该是入口减少了,正常目录收录需要后面再慢慢增加。
Google对robots.txt反应很到位,禁止目录马上消失了,部分正常目录收录马上上升了。/comment/目录收录也下降了,还是受到了一些老目标减少的影响。
搜狗抓取呈现普遍增加的均势,部分禁止目录收录下降了。
总结一下:Google似乎最懂站长的意思,百度等其它搜索引擎只是被动的受入口数量影响了
我只知道360搜索无视robots协议,之前有服务器被360搜索引擎爬到瘫痪,用robots禁止了360蜘蛛的抓取,但是貌似没有什么用,只能从程序端开始控制不360蜘蛛访问。
只能感叹国内搜索引擎离google还有多远的距离
QQ交流群:136351212
查看原文:http://www.phpsong.com/1492.html
robots禁止抓取百度还是收录了首页
最新推荐文章于 2024-08-04 18:36:29 发布