robot.txt的写法详解

其实robots.txt就是一个记事本文件(txt格式文件),存放在网站根目录下。
那么robots.txt语法到底有哪些呢?
robots.txt语法有三个语法和两个通配符。
三个语法:
1.首先要定义网站被访问的搜索引擎是那些。
User-agent:(定义搜索引擎)
语法:User-agent: * 或 搜索引擎的蜘蛛名称
例子:User-agent:Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
User-agent:Baiduspider (定义百度,只允许百度蜘蛛爬取)
User-agent:*(定义所有搜索引擎)
2:屏蔽搜索引擎爬去语法
Disallow:(禁止语法) 用来定义禁止蜘蛛爬取的页面或目录。
写法:DisAllow:/文件夹目录/ (表示禁止蜘蛛爬取网站的其中一个目录)
或 DisAllow:/文件名称 (表示禁止蜘蛛爬取网站的其中一个页面)
例如 isallow:/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Disallow:/abc.html (禁止蜘蛛爬去abc.html页面)
Disallow:/help.html (禁止蜘蛛爬去help.html页面)
整套语法示范:
User-agent: *
Disallow:/目录1/ (禁止所有搜索引擎的蜘蛛爬取站点的目录1)
Disallow:/目录2/ (禁止所有搜索引擎的蜘蛛爬取站点的目录2)
3:允许搜索引擎爬去语法
Allow:(允许语法) 用来定义允许蜘蛛爬取的页面或子目录
例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Allow:/admin/abc.html(“/” 表示根目录下,允许蜘蛛爬去admin目录中的abc.html页面)
两个通配符:
匹配符”$”和 “*”
$ 通配符:匹配URL结尾的字符; * 通配符:匹配0个或多个任意字符;
例子1:
允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址,代码如下:
User-agent: *
Allow: .htm$ 说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)
例2:
设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,代码如下:
User-agent: *
Disallow: /*.htm 说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)
以上是西西对于robots写法(语法)的领悟,分享给大家,如果大家有什么不懂的可以联系西西qq或者email。为了让大家巩固下robots.txt语法知识,下篇文章西西给大家写robots.txt综合列子,尽情期待。
本文发自站长百科: http://www.software8.co 收藏分享
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值