robots协议(爬虫、机器人协议),可告诉搜索引擎的漫游器(又称网络蜘蛛)哪些页面可抓取,那些页面不能抓取。约定俗成(不是一种阻止 搜索引擎 抓取某个网页的机制若想阻止 搜索引擎 访问某个网页,请使用 noindex 禁止将其编入索引,或使用密码保护该网页)的互联网界道德规范,保护网站数据和敏感信息,避免网站收到过多请求,存放于网站根目录下的ASCII编码的文件(由于一些系统URL大小写敏感,文件名统一小写【robots.txt】)。
当搜索引擎爬虫访问某个站点时,会先检查该站点根目录下是否有robots.txt,按照内容确定访问范围。
此时,robots.txt必须通过url/robot.txt打开看到内容
补充:其他影响搜索引擎的方法就有使用robots元数据
<meta name="robots" content="noindex,nofollow" />,也是约定俗成。
内容:
常见:
User-agent(允许的漫游器、网络蜘蛛)
*代表所有(0或多)
allow(允许抓取的目录)disallow(不允许抓取的目录)
/代表所有
实例
1.User-agent:*
allow:/
(允许所有引擎访问所有目录内容)
2.
User-agent:*
allow:/
(不允许访问tmp目录下的所有内容)
3.
User-agent:*
disallow:/*.html$
(禁止所有引擎访问以html结尾的所有目录内容){$结尾}
补充:A、当一个网站的 robots.txt 文件禁止了某个目录的访问,通常是为了告诉搜索引擎爬虫不要对该目录进行索引和抓取。虽然 robots.txt 文件可以指导搜索引擎爬虫的行为,但对于普通用户来说,并不会直接影响他们的访问权限。换句话说,被robots.txt禁止访问的某个目录,仍然可以通过浏览器等访问方式来访问。robots.txt 文件更多地是为了搜索引擎的使用而设计的,对用户访问而言并没有直接限制。
B、访问和搜索引擎的机制有一些不同。下面简要介绍一下它们各自的工作机制:
访问的机制:
1. 用户在浏览器中输入网址或点击链接,向服务器发送请求。
2. 服务器接收到请求后,查找相应的网页文件并将其发送回用户的浏览器。
3. 浏览器接收到网页文件后,解析其中的HTML、CSS、JavaScript等内容,并在用户界面上显示网页。
4. 用户可以浏览网页内容,点击链接跳转到其他页面,与网页进行交互等操作。
搜索引擎的机制(自动):详细:搜索引擎工作原理——蜘蛛爬行和抓取 - 知乎
1. 搜索引擎爬虫(web crawler)根据设定的算法和策略从一个种子网址开始抓取网页,逐步扩展爬取范围。
2. 爬虫程序抓取网页内容,将网页上的文本、链接、图片等数据提取出来,并存储到搜索引擎的数据库中。
3. 搜索引擎建立索引,即对抓取到的数据进行结构化处理和排序,以便后续的搜索查询。
4. 用户在搜索引擎中输入关键词后,搜索引擎根据索引库中的数据进行匹配,返回相关的搜索结果给用户显示。
在访问机制中,用户主动请求并获取特定网页的内容;而在搜索引擎的机制中,搜索引擎通过爬虫程序自动抓取网页内容、建立索引,并在用户查询时返回相关的搜索结果。两者的工作方式虽然有一定差异,但在互联网信息检索和浏览方面发挥着各自的重要作用。