php 禁止抓取,禁止抓取.php的写法哪个对:Disallow: /*.php$和Disallow: /.php$ - 搜外SEO问答...

一、什么是Robots.txt?

robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,

如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。

二、robots.txt语法

1、允许所有搜索引擎访问网站的所有部分

robots.txt写法如下:

User-agent:  *

Disallow:

或者

User-agent:  *

Allow:  /

注意:

1、第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。

2、禁止所有搜索引擎访问网站的所有部分

robots.txt写法如下:

User-agent:  *

Disallow:  /

3、只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引

robots.txt写法如下:

User-agent:  *

Disallow:  /css/

Disallow:  /admin/

Disallow:  /images/

注意:路径后面有斜杠和没有斜杠的区别:比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽

4、屏蔽一个文件夹/templets,但是又能抓取其中一个文件的写法:/templets/main

robots.txt写法如下:

User-agent:   *

Disallow:  /templets

Allow:  /main

5、 禁止访问html/目录下的所有以”.PHP”为后缀的URL(包含子目录)

robots.txt写法如下:

User-agent:  *

Disallow: html/*.php

6、仅允许访问某目录下某个后缀的文件,则使用“$”

robots.txt写法如下:

User-agent:  *

Allow:  .html$

Disallow:  /

7、禁止索引网站中所有的动态页面

比如这里限制的是有“?”的域名,例如

robots.txt写法如下:

User-agent:  *

Disallow:  /*?*

8、禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)

有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还 可以采取直接屏蔽图片后缀名的方式。

robots.txt写法如下:

User-agent: *

Disallow:  .jpg$

Disallow:  .jpeg$

Disallow:  .gif$

Disallow:  .png$

Disallow:  .bmp$

写robots.txt要注意的地方

1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。

2. 斜杠:/ 代表整个网站

3.如果“/”后面多了一个空格,则屏蔽整个网站

4.不要禁止正常的内容

5.生效时间是几天到两个月

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值