robots.txt

robots协议(爬虫、机器人协议),可告诉搜索引擎的漫游器(又称网络蜘蛛)哪些页面可抓取,那些页面不能抓取。约定俗成(不是一种阻止 搜索引擎 抓取某个网页的机制若想阻止 搜索引擎 访问某个网页,请使用 noindex 禁止将其编入索引,或使用密码保护该网页)的互联网界道德规范,保护网站数据和敏感信息,避免网站收到过多请求,存放于网站根目录下的ASCII编码的文件(由于一些系统URL大小写敏感,文件名统一小写【robots.txt】)。

当搜索引擎爬虫访问某个站点时,会先检查该站点根目录下是否有robots.txt,按照内容确定访问范围。

此时,robots.txt必须通过url/robot.txt打开看到内容

补充:其他影响搜索引擎的方法就有使用robots元数据

<meta name="robots" content="noindex,nofollow" />,也是约定俗成。

内容:

常见:

User-agent(允许的漫游器、网络蜘蛛)

*代表所有(0或多)

allow(允许抓取的目录)disallow(不允许抓取的目录)

/代表所有

实例

1.User-agent:*

allow:/

(允许所有引擎访问所有目录内容)

2.

User-agent:*

allow:/

(不允许访问tmp目录下的所有内容)

3.

User-agent:*

disallow:/*.html$

(禁止所有引擎访问以html结尾的所有目录内容){$结尾}

补充:A、当一个网站的 robots.txt 文件禁止了某个目录的访问,通常是为了告诉搜索引擎爬虫不要对该目录进行索引和抓取。虽然 robots.txt 文件可以指导搜索引擎爬虫的行为,但对于普通用户来说,并不会直接影响他们的访问权限。换句话说,被robots.txt禁止访问的某个目录,仍然可以通过浏览器等访问方式来访问。robots.txt 文件更多地是为了搜索引擎的使用而设计的,对用户访问而言并没有直接限制。

B、访问和搜索引擎的机制有一些不同。下面简要介绍一下它们各自的工作机制:

访问的机制:
1. 用户在浏览器中输入网址或点击链接,向服务器发送请求。
2. 服务器接收到请求后,查找相应的网页文件并将其发送回用户的浏览器。
3. 浏览器接收到网页文件后,解析其中的HTML、CSS、JavaScript等内容,并在用户界面上显示网页。
4. 用户可以浏览网页内容,点击链接跳转到其他页面,与网页进行交互等操作。

搜索引擎的机制(自动):详细:搜索引擎工作原理——蜘蛛爬行和抓取 - 知乎

1. 搜索引擎爬虫(web crawler)根据设定的算法和策略从一个种子网址开始抓取网页,逐步扩展爬取范围。
2. 爬虫程序抓取网页内容,将网页上的文本、链接、图片等数据提取出来,并存储到搜索引擎的数据库中。
3. 搜索引擎建立索引,即对抓取到的数据进行结构化处理和排序,以便后续的搜索查询。
4. 用户在搜索引擎中输入关键词后,搜索引擎根据索引库中的数据进行匹配,返回相关的搜索结果给用户显示。

在访问机制中,用户主动请求并获取特定网页的内容;而在搜索引擎的机制中,搜索引擎通过爬虫程序自动抓取网页内容、建立索引,并在用户查询时返回相关的搜索结果。两者的工作方式虽然有一定差异,但在互联网信息检索和浏览方面发挥着各自的重要作用。

参考:https://www.cnblogs.com/sddai/p/6820415.html

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
回答: Robots.txt是一个约定、协议,是网站和搜索引擎爬虫之间的协议文件。它以简单的txt格式文本方式告诉搜索引擎爬虫被允许的权限,用来控制搜索引擎爬虫对网站的访问范围。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt文件,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。\[3\]Robots.txt的作用是为了更好地被搜索引擎收录,站点可以通过设置robots.txt来控制搜索引擎爬虫的访问权限。\[2\]如果站点希望封禁某些页面,真正的封禁并不是靠user-agent来实现,而是通过其他方式来实现。\[2\]如果需要生成或检测Robots.txt文件,可以使用一些在线工具,如站长工具Robots.txt生成、便民查询网Robots.txt生成器、Tool在线工具等。\[1\] #### 引用[.reference_title] - *1* *3* [什么是robots.txt文件](https://blog.csdn.net/qq_41092170/article/details/117701816)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [【每天学习一点新知识】robots.txt详解](https://blog.csdn.net/m0_51683653/article/details/127252676)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值