用Robots.txt解决搜索引擎惩罚的问题。
引擎惩罚 --- 我们为获得在某一搜索引擎中的排名,会根据其排名规律设计页面,如果符合得很好,登记后会获得理想的排名。 但是由于各搜索引擎排名规则各异,某一页面只能在某一搜索引擎中的获得好的排名。 所以有人在站点中克隆页面,制定不同文件名,并修改页面原标记,以满足其他搜索引擎排名规则。 这样做被索引擎认为是异常克隆页面,会给予惩罚,不进行收录。
Robots.txt代码
User-agent: {SpiderNameHere}
Disallow: {FileNameHere}
*SpiderNameHere 指定的Spider名字
*FileNameHere 指定的页面名字
举例
不让Googlebot检索1.html和2.html页面:
User-agent: Googlebot
Disallow: /1.html
Disallow: /2.html
不让Googlebot的test目录下的1.html页面:
User-agent: Googlebot
Disallow: /test/1.htmt
不让Googlebot的test目录:
User-agent: Googlebot
Disallow: /test/
不让所有Spider检索1.html页面:
User-agent: *
Disallow: 1.html
不检索整个站点:
Disallow: /
User-Agent列表
AltaVista--------------Scooter
AOL Search-------------Slurp
DirectHit--------------Grabber
Excite-----------------ArchitextSpider
Fast-------------------Fast
Google-----------------Googlebot
Goto-------------------Slurp
Hotbot-----------------Slurp
Infoseek---------------Infoseek
Iwon-------------------Slurp
Lycos------------------Lycos
Looksmart Web Pages----Slurp
MSN--------------------Slurp
Netscape---------------Googlebot
NorthernLight----------Gulliver
WebCrawler-------------ArchitextSpider
Yahoo Web Pages--------Googlebot
引擎惩罚 --- 我们为获得在某一搜索引擎中的排名,会根据其排名规律设计页面,如果符合得很好,登记后会获得理想的排名。 但是由于各搜索引擎排名规则各异,某一页面只能在某一搜索引擎中的获得好的排名。 所以有人在站点中克隆页面,制定不同文件名,并修改页面原标记,以满足其他搜索引擎排名规则。 这样做被索引擎认为是异常克隆页面,会给予惩罚,不进行收录。
Robots.txt代码
User-agent: {SpiderNameHere}
Disallow: {FileNameHere}
*SpiderNameHere 指定的Spider名字
*FileNameHere 指定的页面名字
举例
不让Googlebot检索1.html和2.html页面:
User-agent: Googlebot
Disallow: /1.html
Disallow: /2.html
不让Googlebot的test目录下的1.html页面:
User-agent: Googlebot
Disallow: /test/1.htmt
不让Googlebot的test目录:
User-agent: Googlebot
Disallow: /test/
不让所有Spider检索1.html页面:
User-agent: *
Disallow: 1.html
不检索整个站点:
Disallow: /
User-Agent列表
AltaVista--------------Scooter
AOL Search-------------Slurp
DirectHit--------------Grabber
Excite-----------------ArchitextSpider
Fast-------------------Fast
Google-----------------Googlebot
Goto-------------------Slurp
Hotbot-----------------Slurp
Infoseek---------------Infoseek
Iwon-------------------Slurp
Lycos------------------Lycos
Looksmart Web Pages----Slurp
MSN--------------------Slurp
Netscape---------------Googlebot
NorthernLight----------Gulliver
WebCrawler-------------ArchitextSpider
Yahoo Web Pages--------Googlebot