robots.txt的作用

最新推荐文章于 2023-06-10 00:01:05 发布

janfly79

最新推荐文章于 2023-06-10 00:01:05 发布

阅读量357

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/janfly79/article/details/52964390

版权

首先来讲一讲：robots.txt是以什么形式存在？
robots.txt就是一份网站和搜索引擎双方签订的规则协议书。每一个搜索引擎的蜘蛛访问一个站点时，它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在，蜘蛛就会按照该协议书上的规则来确定自己的访问范围；如果没有robots.txt，那么蜘蛛就会沿着链接抓取。

请牢牢记住：robots.txt必须放置在站点的根目录下，而且文件名必须全部小写。Disallow后面的冒号必须为英文状态的。

我们先来理解User-agent和Disallow的定义。

● User-agent：该项用于描述搜索引擎蜘蛛的名字。（1）规定所有蜘蛛：User-agent:*；（2）规定某一个蜘蛛：User-agent:BaiduSpider。

● Disallow：该项用于描述不希望被抓取和索引的一个URL，这个URL可以是一条完整的路径。这有几种不同定义和写法：（1）Disallow:/AAA.net，任何以域名+Disallow描述的内容开头的URL均不会被蜘蛛访问，也就是说以AAA.net目录内的文件均不会被蜘蛛访问；（2）Disallow：/AAA.net/则允许robots抓取和索引AAA.net/index.html，而不能抓取和索引AAA.net/admin.html；（3）如果Disallow记录为空，说明该网站的所有部分都允许被访问。在robots.txt文件中，至少应有Disallow记录，如果robots.txt为空文件，则对所有的搜索引擎robot来说，该网站都是开放的。

1、国内建站需要用到的常见搜索引擎robot的名称。

有时候我们觉得网站访问量（IP）不多，但是网站流量为什么耗的快？有很多的原因是垃圾（没有）蜘蛛爬行和抓取消耗的。而网站要屏蔽哪个搜索引擎或只让哪个搜索引擎收录的话，首先要知道每个搜索引擎robot的名称。

2、robots.txt文件基本常用写法：

首先，你先建一个空白文本文档（记事本），然后命名为：robots.txt。

（1）禁止所有搜索引擎访问网站的任何部分。

User-agent: *

Disallow: /

（2）允许所有的robots访问，无任何限制。

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

还可以建立一个空文件robots.txt或者不建立robots.txt。

（3）仅禁止某个搜索引擎的访问（例如：百度baiduspider）

User-agent: BaiduSpider

Disallow:/

（4）允许某个搜索引擎的访问（还是百度）

User-agent: BaiduSpider

Disallow:

User-agent: *

Disallow: /

这里需要注意，如果你还需要允许谷歌bot，那么也是在“User-agent: ”前面加上，而不是在“User-agent: ”后面。

（5）禁止Spider访问特定目录和特定文件（图片、压缩文件）。

User-agent: *

Disallow: /AAA.net/

Disallow: /admin/

Disallow: .jpg$

Disallow: .rar$

这样写之后，所有搜索引擎都不会访问这2个目录。需要注意的是对每一个目录必须分开说明，而不要写出“Disallow:/AAA.net/ /admin/”。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
robots.txt的作用

首先来讲一讲：robots.txt是以什么形式存在？ robots.txt就是一份网站和搜索引擎双方签订的规则协议书。每一个搜索引擎的蜘蛛访问一个站点时，它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在，蜘蛛就会按照该协议书上的规则来确定自己的访问范围；如果没有robots.txt，那么蜘蛛就会沿着链接抓取。请牢牢记住：robots.txt必须放置在站点的根目录下，而且文件名必
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。