代码如下:
User-agent: * Disallow: / Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /cache/ Disallow: /class/ Disallow: /images/ Disallow: /include/ Disallow: /install/ Disallow: /kernel/ Disallow: /language/ Disallow: /templates_c/ Disallow: /themes/
User-agent : * Disallow : / Disallow : /cgi-bin/ Disallow : /tmp/ Disallow : /cache/ Disallow : /class/ Disallow : /images/ Disallow : /include/ Disallow : /install/ Disallow : /kernel/ Disallow : /language/ Disallow : /templates_c/ Disallow : /themes/ |
另外介绍下robots:
User-agent: * 允许所有蜘蛛爬行。当然也可以有选择性的进行筛选。
例如:User-agent: Googlebot (还有一种叫做Mediabot,这种蜘蛛也是Google的,它的目的是抓取网页来匹配Google AdSense与内容相关广告的。) Baiduspider(百度蜘蛛).
Disallow: / 禁止蜘蛛爬行目录。
Allow: / 允许爬行的目录。
Allow: /~modules/news 允许访问特定目录中的部分url.
Disallow: /~modules/ 禁止访问特定目录中的部分url.
Allow: .htm$ 仅允许抓取 .htm结尾的url 当然也可以对其他文件进行设置 例如:(Allow: .jpg$).
Disallow: .jpg$ 则相反.
代码如下:
另外介绍下:User-agent: * 允许所有蜘蛛爬行。当然也可以有选择性的进行筛选。例如:User-agent: Googlebot (还有一种叫做Mediabot,这种蜘蛛也是Google的,它的目的是抓取网页来匹配Google AdSense与内容相关广告的。) Baiduspider(百度蜘蛛).
Disallow: / 禁止蜘蛛爬行目录。Allow: / 允许爬行的目录。
Allow: /~modules/news 允许访问特定目录中的部分url.Disallow: /~modules/ 禁止访问特定目录中的部分url.
Allow: .htm$ 仅允许抓取 .htm结尾的url 当然也可以对其他文件进行设置 例如:(Allow: .jpg$).Disallow: .jpg$ 则相反.
参考网站:http://www.robotstxt.org/
原创文章,转载请注明: 转载自Martin
本文链接地址: xoops robots 写法 以及robots规则简单介绍