什么是网络爬虫,它们如何工作!(原创)

什么是爬虫,它们如何工作?

这些搜寻器通过各种方式发现内容。一种是纯粹的发现,爬虫在其中访问URL,然后将有关网站内容类型的信息返回给搜索引擎。实际上,现代爬虫有很多信息可以获取-但是稍后我们将讨论如何使用它。搜寻器用来发现内容的另一种方法是遵循从先前搜寻的网站找到的所有URL。从某种意义上讲,它很像病毒,它想要遍历/传播所有可能的东西。

让我们可视化一些事情…

下图是这些Web爬网程序如何工作的高级摘要。一旦网络搜寻器发现了诸如mywebsite.com之类的域,它将为该域的全部内容建立索引,以查找关键字和其他杂项信息-但是稍后我将讨论这些杂项信息。

在这里插入图片描述

在上图中,“ mywebsite.com ”已被删除,其关键词为“ Apple”,“ Banana”和“ Pear”,这些关键词由爬虫存储在字典中,然后由爬虫将其返回给搜索引擎,即Google由于这种持久性,Google现在知道域“ mywebsite.com ”具有关键字“ Apple”,“ Banana”和“ Pear”。由于只有一个网站已被爬网,因此如果用户要搜索“ Apple” …“ mywebsite.com ”将会出现。 如果用户要搜索“香蕉”,则将导致相同的行为。当来自搜寻器的索引内容报告该域为“香蕉”时,它将显示给用户。
在这里插入图片描述

如下所示,用户向“ Pears”搜索引擎提交查询,因为该搜索引擎仅包含一个使用“ Pears”关键字抓取的网站的内容,因此它将是唯一显示给用户。

但是,正如我们前面提到的,爬网程序会尝试遍历他们可以找到的每个URL和文件(称为爬网)!假设“ mywebsite.com ”具有与以前相同的关键字(“ Apple”,“ Banana”和“ Pear”),但也具有指向另一个网站“ anotherwebsite.com ” 的URL,则搜寻器将尝试遍历所有内容。该URL(anotherwebsite.com)并分别检索该域内所有内容的内容。

如下图所示。搜寻器最初会找到“ mywebsite.com ”,并在其中搜寻网站内容-找到与以前相同的关键字(“ Apple”,“ Banana”和“ Pear”),但另外还找到了一个外部URL。搜寻器已在“ mywebsite.com ” 上完成,它将继续搜寻网站“ anotherwebsite.com ” 的内容,在该网站上找到关键字(“ Tomatoes”,“ Strawberries”和“ Pineapples”)。词典现在包含“ mywebsite.com ”和“ anotherwebsite.com ”的内容,然后将其存储并保存在搜索引擎中。

在这里插入图片描述
翻盖

综上所述,搜索引擎现在掌握了已爬网的两个域的知识:

  1. mywebsite.com
  2. anotherwebsite.com

尽管注意,“ otherwebsite.com ”仅被爬网,因为它被第一个域“ mywebsite.com ” 引用。由于此参考,搜索引擎了解有关这两个域的以下信息:

域名 关键词
mywebsite.com 苹果
mywebsite.com
香蕉
mywebsite.com

anotherwebsite.com 番茄
anotherwebsite.com 草莓
anotherwebsite.com 菠萝
或如下图所示:
在这里插入图片描述
现在,搜索引擎已经对关键字有所了解,例如,如果用户要搜索“ Pears”,则将显示域“ mywebsite.com ”-因为它是唯一包含“ Pears”的已爬网域:

在这里插入图片描述

同样,假设在这种情况下,用户现在搜索“草莓”。将显示域“ anotherwebsite.com ”,因为它是搜索引擎搜寻到的唯一包含关键字“ Strawberries”的域:

在这里插入图片描述

很好。但是,请想象一下,如果一个网站有多个外部URL(就像他们经常那样!),这将需要大量的爬网操作。总是有另一个网站可能具有与另一个网站爬网相似的信息的可能性-对吗?那么,“搜索引擎”如何决定显示给用户的域的层次结构?

在这种情况下的下图中,如果用户要搜索诸如“番茄”(网站1-3包含哪些内容)之类的关键字,则该关键字决定以什么顺序显示哪个网站?

在这里插入图片描述

逻辑上的假设是将显示网站1-> 3 …但是,这不是现实域的工作方式和/或命名方式。

那么,谁(或什么)决定层次结构?好…

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值