robots.txt相关知识点

 

一:什么是robots.txt ?

      robots.txt是网站和搜索引擎的协议的纯文本文件。

     当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt放在项目根目录下。(ps: 文件名必须全部小写)

二:基本语法 ?

      User-agent:定义禁止搜索引擎名字。百度(Baiduspide)、谷歌(Googlebot)、360(360Spider)等。 *号代表全部搜索引擎                  Disallow:不允许收录

       Allow:允许收录

       #:注释

三:具体实例

1、全站屏蔽所有蜘蛛:

     User-agent: *

     Disallow: /

2、全站允许所有蜘蛛:

     User-agent: *

     Disallow: 

3、屏蔽某个目录,但抓取目录下的文件或文件夹

   如:屏蔽所有蜘蛛抓取根目录下的wap文件夹,但抓取里面后缀名为html文件

         User-agent: /

         Disallow: /wap/

         Allow: /wap/*.html

4、禁止具体搜索引擎的抓取网站,比如百度,禁止百度索引网站

        User-agent: Baiduspider

        Disallow: /

注意: (1). 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错;

            (2). 路径后面有斜杠和没有斜杠的区别:

                  比如  Disallow: /images/ 有斜杠是禁止抓取images整个文件夹;

                            Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽;

            (3). 出于安全考虑,需禁止浏览器直接访问robots.txt

 

 

 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值