robots.txt

最新推荐文章于 2024-06-22 16:16:17 发布

南山无梅落398

最新推荐文章于 2024-06-22 16:16:17 发布

阅读量382

点赞数 4

文章标签：前端

本文链接：https://blog.csdn.net/2302_81293313/article/details/136978700

版权

robots协议（爬虫、机器人协议），可告诉搜索引擎的漫游器（又称网络蜘蛛）哪些页面可抓取，那些页面不能抓取。约定俗成（不是一种阻止搜索引擎抓取某个网页的机制若想阻止搜索引擎访问某个网页，请使用 noindex 禁止将其编入索引，或使用密码保护该网页）的互联网界道德规范，保护网站数据和敏感信息，避免网站收到过多请求，存放于网站根目录下的ASCII编码的文件（由于一些系统URL大小写敏感，文件名统一小写【robots.txt】）。

当搜索引擎爬虫访问某个站点时，会先检查该站点根目录下是否有robots.txt,按照内容确定访问范围。

此时，robots.txt必须通过url/robot.txt打开看到内容

补充：其他影响搜索引擎的方法就有使用robots元数据

内容：

常见：

User-agent（允许的漫游器、网络蜘蛛）

*代表所有(0或多)

allow（允许抓取的目录）disallow（不允许抓取的目录）

/代表所有

实例

1.User-agent：*

allow：/

(允许所有引擎访问所有目录内容)

User-agent：*

allow：/

（不允许访问tmp目录下的所有内容）

User-agent：*

disallow：/*.html$

（禁止所有引擎访问以html结尾的所有目录内容){$结尾}

补充：A、当一个网站的 robots.txt 文件禁止了某个目录的访问，通常是为了告诉搜索引擎爬虫不要对该目录进行索引和抓取。虽然 robots.txt 文件可以指导搜索引擎爬虫的行为，但对于普通用户来说，并不会直接影响他们的访问权限。换句话说，被robots.txt禁止访问的某个目录，仍然可以通过浏览器等访问方式来访问。robots.txt 文件更多地是为了搜索引擎的使用而设计的，对用户访问而言并没有直接限制。

B、访问和搜索引擎的机制有一些不同。下面简要介绍一下它们各自的工作机制：

访问的机制：
1. 用户在浏览器中输入网址或点击链接，向服务器发送请求。
2. 服务器接收到请求后，查找相应的网页文件并将其发送回用户的浏览器。
3. 浏览器接收到网页文件后，解析其中的HTML、CSS、JavaScript等内容，并在用户界面上显示网页。
4. 用户可以浏览网页内容，点击链接跳转到其他页面，与网页进行交互等操作。

搜索引擎的机制（自动）：详细：搜索引擎工作原理——蜘蛛爬行和抓取 - 知乎

1. 搜索引擎爬虫（web crawler）根据设定的算法和策略从一个种子网址开始抓取网页，逐步扩展爬取范围。
2. 爬虫程序抓取网页内容，将网页上的文本、链接、图片等数据提取出来，并存储到搜索引擎的数据库中。
3. 搜索引擎建立索引，即对抓取到的数据进行结构化处理和排序，以便后续的搜索查询。
4. 用户在搜索引擎中输入关键词后，搜索引擎根据索引库中的数据进行匹配，返回相关的搜索结果给用户显示。

在访问机制中，用户主动请求并获取特定网页的内容；而在搜索引擎的机制中，搜索引擎通过爬虫程序自动抓取网页内容、建立索引，并在用户查询时返回相关的搜索结果。两者的工作方式虽然有一定差异，但在互联网信息检索和浏览方面发挥着各自的重要作用。

参考：https://www.cnblogs.com/sddai/p/6820415.html

南山无梅落398

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
robots.txt

补充：A、当一个网站的 robots.txt 文件禁止了某个目录的访问，通常是为了告诉搜索引擎爬虫不要对该目录进行索引和抓取。而在搜索引擎的机制中，搜索引擎通过爬虫程序自动抓取网页内容、建立索引，并在用户查询时返回相关的搜索结果。的互联网界道德规范，保护网站数据和敏感信息，避免网站收到过多请求，存放于网站根目录下的ASCII编码的文件（由于一些系统URL大小写敏感，文件名统一小写【robots.txt】）。2. 爬虫程序抓取网页内容，将网页上的文本、链接、图片等数据提取出来，并存储到搜索引擎的数据库中。
复制链接

扫一扫