1.是什么?
robot.txt是一个纯文本的文档,通常是在网站的根目录下的一个文件。robots.txt文件是每一个搜索引擎蜘蛛到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过该文件,搜索引擎就可以知道在你的网站中哪些文件是可以被索引的,哪些文件是被拒绝索引的,我们就可以很方便地控制搜索索引网站内容了。
2.作用?
屏蔽网站内的死链接;屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面;阻止搜索引擎索引网站隐私性的内容。
3.语法?
robots.txt文件的基本语法只有三条,第一条是:User-agent,即搜索引擎蜘蛛的名称;第二条是:Disallow,即要拦截的部分。第三条:allow,允许部分
(1)允许所有的搜索引擎访问网站的所有部分或者建立一个空白的文本文档,命名为robots.txt。
User-agent:*
Disallow:
或者
User-agent:*
Allow:/
(2)禁止所有搜索引擎访问网站的所有部分。
User-agent:*
Disallow:/
(3)禁止百度索引你的网站。
User-agent:Baiduspider
Disallow:/
(4),禁止Google索引你的网站。
User-agent:Googlebot
Disallow:/
(5)禁止除百度以外的一切搜索引擎索引你的网站。
User-agent:Baiduspider
Disallow:
User-agent:*
Disallow:/
(6)禁止除Google以外的一切搜索引擎索引你的网站。
User-agent:Googlebot
Disallow:
User-agent:*
Disallow:/
(7)禁止和允许搜索引擎访问某个目录,如:禁止访问admin目录;允许访问images目录。
User-agent:*
Disallow:/admin/
Allow:/images/
(8)禁止和允许搜索引擎访问某个后缀,如:禁止访问admin目录下所有php文件;允许访问asp文件。
User-agent:*
Disallow:/admin/.php$
Allow:/admin/.asp$
(9)禁止索引网站中所有的动态页面(这里限制的是有“www”的域名,如:index.php?id=8)。
User-agent:*
Disallow:/www
在遵守协议的条件下,我们项目的如何设置robot.txt,达到防爬取的目的
最新推荐文章于 2024-08-14 16:31:41 发布