关于robot 限制协议

最新推荐文章于 2022-12-12 13:15:13 发布

Rockics

最新推荐文章于 2022-12-12 13:15:13 发布

阅读量2.3k

点赞数

分类专栏：互联网技术文章标签：搜索引擎 html web user internet google

互联网技术专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在百度google输入我的名字，很多不该出现的都出现了，^_^。强烈建议相关的站点管理员好好学学robot 限制协议。

以下内容转自：http://hi.baidu.com/ligang1017/blog/item/55d58bb79949e0f330add12e.html

限制robot访问web站点的方法

　　robot是帮助搜索引擎搜集网页的一种自动化程序，它在访问一个web站点时，会跟随网页中的链接提取出站点上的大部分内容，并为这些网页建立索引，放在搜索引擎的数据库中。在一些情况下，web管理员或网页的作者出于某种原因的考虑可能并不想让robot提取站点上的某些内容，此时可以使用一些方法来限制robot的访问范围。

　　限制robot访问web站点的方法共有两种，一种是由站点的web管理员使用的robot限制协议，目前绝大部分robot都遵守该协议，另一种是由网页作者使用的robot meta标记，目前只有一小部分robot支持该标记。

　　robot限制协议

　　robot限制协议的关键是在web站点的根目录下放置一个文本文件robot.txt。robot在访问一个站点时会首先去读取该文件，分析其中的内容，并按照web管理员的规定不去访问某些文件。下面是robot.txt的一个例子：

　　＃ http://www.yoursite.com/robots.txt

　　user－agent:

　　disallow: /tmp/ ＃ these files will soon be deleted

　　disallow: /test.html

　　user－agent: infoseek robot 1.0

　　 disallow: /

　　其中“＃”后面的内容是注释，user－agent命令用于指定它下面的disallow命令对何种robot有效，“ ”表示对所有robot都有效，上面例子中第二个user－agent命令表示其下面的disallow命令只对infoseek的1.0版robot有效。disallow命令用于指定哪些目录或文件不能被访问，如果指定了“/”，那么所有文件都不允许访问，disallow命令在一行中只能放一个目录或一个文件，如果有多个目录，则必须分别放在几行中。

　　上面的robot.txt文件是目前还在使用的早期robot限制协议规定的内容，现在还有一个关于如何限制robot的internet草案正在制定之中，它对早期robot限制协议进行了很多扩充，但还未进入实用阶段。

　　robot meta标记

　　绝大多数情况下，网页作者并非web管理员，如果网页作者不想让robot访问自己编写的一些html文件，那么可以请web管理员帮忙在robot.txt中注明，或者使用robot meta标记。

　　meta标记是html文件中用来放置一些不可见信息的一种标记，它必须放在html文件的head部分中。robot meta标记是一种特殊的meta标记，下面是它的几个例子：

　　〈meta name=″robots″ content=″index,follow″〉

　　〈meta name=″robots″ content=″noindex,follow″〉

　　〈meta name=″robots″ content=″index,nofollow″〉

　　〈meta name=″robots″ content=″noindex,nofollow″〉

　　robot meta标记的name部分为“robots”，content部分可以是“index”、“noindex”、“follow”和“nofollow”的组合。“index”表示搜索引擎可以为该html文件建立索引，“follow”表示搜索引擎可以使用该html文件中的链接来访问其它文件，“noindex”和“nofollow”与“index”和“follow”的意义正好相反。在组合使用这几个命令时，不能出现逻辑矛盾，即不能同时指定“index”、“noindex”，或“follow”、“nofollow”。另外，如果要指定“index，follow”，可以使用“all”来代替，如果要指定“noindex”、“nofollow”，可以使用“none”来代替。

　　使用robot meta标记的缺点是比较麻烦，对每一个html文件都要进行修改，另外，很多robot并不支持该标记。

Rockics

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
关于robot 限制协议

在百度google输入我的名字，很多不该出现的都出现了，^_^。强烈建议相关的站点管理员好好学学robot 限制协议。以下内容转自：http://hi.baidu.com/ligang1017/blog/item/55d58bb79949e0f330add12e.html限制robot访问web站点的方法　　robot是帮助搜索引擎搜集网页的一种自动化程序，它在访问一个web站点时，会跟随网页中的链接提取出站点上的大部分内容，并为这些网页建立索引，放在搜索引擎的数据库中。在一些情况下，web管理员或网页的
复制链接

扫一扫