如何生成robots.txt?

原创 2012年03月21日 17:26:38

robots.txt是一个文本文件,可以对抓取网络的搜索引擎蜘蛛进行限制,设置允许它抓取的范围、文件及目录,这是一个简单且重要的工具,下面跟大家介绍一下怎样写robots.txt文件。

robots.txt必须放在网站根目录下,且文件名必须小写,下面看一个例子:

# robots.txt file start

# Exclude Files From All Robots:

User-agent: *
Disallow: /security/
Disallow: /admin/
Disallow: /admin.htm

# End robots.txt file

禁止访问写法:
Disallow: /
User-agent: badbat

有#号的都是注释,方便阅读。
User-agent是搜索引擎的蜘蛛,后面用了*号,表示允许所有的蜘蛛访问,也可以建一个空的robots.tx文件。
Disallow是表示不允许抓取目录或者文件,/admin.htm是文件,/admin/是站点目录,表示禁止抓取的范围。
Disallow: /是表示禁止所有搜索引擎访问。
User-agent: badbat是表示禁止某个搜索引擎访问


如何使用robots.txt及其详解

如何使用robots.txt 原文链接:http://www.cnblogs.com/yuzhongwusan/archive/2008/12/06/1348969.html 在国内,...
  • chenhualeguan
  • chenhualeguan
  • 2016年04月21日 11:10
  • 1439

如何防止利用robots.txt查找到网站后台

网站的robots.txt的目的是告知搜索引擎,哪些目录不可以访问和收录。当搜索爬虫访问你的站点时,它会首先检查你站点根目录下是否有robots.txt文件,如果有,搜索引擎机器人就会根据此文件中的内...
  • ruixuntao
  • ruixuntao
  • 2014年05月12日 08:27
  • 2510

论WordPress网站robots.txt的正确写法

robots.txt文件是一个应该存放在网站根目录里面的文本文件,该文件是用来正确引导搜索引擎抓取和收录页面的,用来告诉搜索引擎哪些页面可以收录而哪些不可以,所以正确编写robots.txt文件显得尤...
  • luyong3435
  • luyong3435
  • 2014年05月20日 21:56
  • 5934

网络爬虫排除协议robots.txt介绍及写法详解.

Robots协议的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),它的功能是通过Robots文件告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,抓取的标准等。它以一个...
  • wx243535967
  • wx243535967
  • 2015年06月03日 14:35
  • 612

robots.txt 文件详解

robots.txt      robots.txt写法   robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robo...
  • kalision
  • kalision
  • 2012年08月29日 09:15
  • 2515

robots.txt 不让搜索引擎收录网站的方法

有没有担心过自己的隐私会在强大的搜索引擎面前无所遁形?想象一下,如果要向世界上所有的人公开你的私人日记,你能接受吗?的确是很矛盾的问题,站长们大都忧虑“如何让搜索引擎收录的我的网站?”,而我们还是要研...
  • shujudeliu
  • shujudeliu
  • 2016年04月26日 19:04
  • 1810

网络爬虫二十三-遵守robots.txt

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓...
  • saizo123
  • saizo123
  • 2017年03月29日 12:37
  • 140

搜索引擎蜘蛛及网站robots.txt文件详解

我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。对于网站管理者和内容提供者来说,有...
  • mudalu626
  • mudalu626
  • 2011年06月10日 13:23
  • 399

robots.txt文件的作用

Robots.txt文件的作用: 1、屏蔽网站内的死链接。 2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。 3、阻止搜索引擎索引网站隐私性的内容。 因此建立robots.txt文件是很有必要的...
  • qq_35826156
  • qq_35826156
  • 2017年07月20日 16:10
  • 330

熊向阳:如何理解robots.txt文件

我们知道在做SEO优化的过程中少不了用到一个文件,这个文件能够帮我们很大的忙,这个文件就是robots.txt,这个文件服务器下面没有,可以在本地编写好之后上传到服务器根目下,下面鄙人给大家举例它的有...
  • xiangyangs12
  • xiangyangs12
  • 2012年03月19日 13:42
  • 346
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:如何生成robots.txt?
举报原因:
原因补充:

(最多只允许输入30个字)