大型网站的抓取预算管理

如果网站在一段时间内的响应速度很快,则抓取容量上限会升高,即 Googlebot 可以使用更多的连接进行抓取。如果网站运行速度变慢或出现服务器错误,则抓取容量上限会降低,Googlebot 的抓取量会减少。

Google 在抓取网站时会根据需要来分配抓取时间:

  • Google 感知到的网址目录:如果没有您的引导,Googlebot 会尝试抓取在您网站上发现的所有或大多数网址。如果这些网址中有很多是重复的,或者您由于其他某种原因(网址已被移除、不重要等)不希望 Google 抓取这些网址,则它们会浪费大量 Google 抓取您网站的时间。这一因素最能得到控制。
  • 热门程度:Googlebot 往往会更加频繁地抓取互联网上较为热门的网址,以便在我们的索引中及时更新这些网址的内容。
  • 过时性:我们的系统希望尽可能频繁地重新抓取文档,以便将所有更改收入囊中。

在综合考虑了抓取容量和抓取需求之后,Google 将网站的“抓取预算”定义为 Googlebot 可以且希望抓取的一组网址。即使未达到抓取容量上限,如果抓取需求较低,Googlebot 也会降低对您网站的抓取频率。

如何最大限度的提高抓取效率?

管理网址目录:使用适当的工具告知 Google 要抓取哪些网页和不抓取哪些网页。如果 Google 花费太多时间抓取不适合编入索引的网址,Googlebot 就可能认为不值得花时间查看您网站的其余部分(或为此增加您的抓取预算)。

  • 整合重复内容。
  • 禁止谷歌抓取我不希望编入索引的网页。要用robots文件,不要用noindex。
  • 针对永久移除的网页返回 404/410。Google 不会忘记自己发现的网址,但 404 会明确告知 Google 不要再次抓取该网址。
  • 彻底移除返回软 404 代码的网页。
  • 及时更新站点地图。Google 会定期读取您的站点地图,因此请务必添加您希望 Google 抓取的所有内容。如果您的网站包含更新后的内容,我们建议您添加 <lastmod> 标记。
  • 避免使用很长的重定向链,以免对抓取产生负面影响。

提高网页的加载速度。 如果 Google 能够更快地加载和渲染您的网页,我们或许可以从您的网站中读取更多内容。
监控网站抓取情况。 监控您的网站在抓取过程中是否会出现可用性问题,并寻找方式来提高抓取效率。

监控网站的抓取和索引编制情况

1. 查看 Googlebot 是否在您的网站上遇到了可用性问题
改善网站的可用性不一定会增加抓取预算;如前所述,Google 会根据抓取需求来确定最佳抓取速度。但是,可用性问题确实会导致 Google 无法按照其期望的频率来抓取您的网站。

诊断:

在“抓取统计信息”报告(https://search.google.com/search-console/settings/crawl-stats)中查看 Googlebot 对您网站的抓取历史记录。该报告会显示 Google 何时在您的网站上遇到了可用性问题。如果系统针对您的网站报告了可用性错误或警告,请在主机可用性图表中查找 Googlebot 请求超出上限(用红线表示)的实例,点击进入图表查看哪些网址不可用,并尝试将这些网址与您网站上的问题关联起来。

解决方案:

  • 请查看“抓取统计信息”报告文档,了解如何查找和处理一些可用性问题。
  • 如果您不希望 Google 抓取您的网页,请禁止 Google 抓取该网页。(请参阅管理您的网址目录)
  • 提高网页加载和渲染速度。(请参阅提高您的网站抓取效率)
  • 增加服务器容量。如果 Google 在抓取网站时似乎一直达到服务器容量上限,但您仍有一些重要网址的抓取和更新频率达不到其所需频率,那么,提供更多服务资源可能会使 Google 能够请求抓取您网站上的更多网页。请在“抓取统计信息”报告中查看您的主机可用性历史记录,了解 Google 的抓取速度是否经常超出上限。如果是,请增加服务资源达一个月,并查看抓取请求数在这一时间段内是否增加了。
     

2. 查看您网站中是否有应被抓取但未被抓取的部分

Google 会在您的网站上花费尽可能多的时间,以便将其能够找到的所有对用户有价值的高品质内容编入索引。如果您认为 Googlebot 遗漏了重要内容,可能是因为它不知道该内容、该内容已对 Google 屏蔽,或者您的网站可用性限制了 Google 的访问权限(或者 Google 在尽力不让您的网站负载过重)。

  • 将新网页告知 Google:更新站点地图以反映新网址。
  • 检查您的 robots.txt 规则,确认您没有意外屏蔽网页。
  • 如果您的所有未被抓取的网页都有网址参数,那么您的网页可能因网址参数工具中的设置而被排除;遗憾的是,您无法检查此类排除内容,因此我们通常建议您不要使用该工具。
  • 检查抓取优先级(也就是明智地使用抓取预算)。管理您的网址目录并提高您的网站抓取效率。
  • 确保您没有用完服务器容量。 如果 Googlebot 检测到您的服务器在响应抓取请求时遇到问题,将会降低抓取速度。

请注意,如果相关内容没有足够的价值或用户需求,那么即使网页被抓取,也可能不会显示在搜索结果中。

会对网站的抓取及索引编制造成不利影响的网页:

  • 分面导航和会话标识符:分面导航通常是来自网站的重复内容;会话标识符以及其他仅用于排序或过滤网页的网址参数不会提供新内容。使用 robots.txt 屏蔽分面导航网页。如果您发现 Google 抓取了您网站上大量包含不同参数而本质上重复的网址,请考虑屏蔽参数化重复内容。
  • 重复内容:帮助 Google 识别重复内容,以避免不必要的抓取。
  • 软 404 网页:当网页不再存在时,返回 404 代码。
  • 被黑网页:请务必查看“安全问题”报告,并修正或移除所发现的所有被黑网页。
  • 无限空间和代理:使用 robots.txt 禁止 Googlebot 抓取这些内容。
  • 低劣品质和垃圾内容:显然,最好避免此类内容。
  • 购物车网页、无限滚动网页和执行某项操作的网页(例如“注册”或“立即购买”网页)。

内容是按质量评分的,与新旧无关。请根据需要创建和更新您的内容,但为了使网页看起来是最新状态,人为地做出一些无关紧要的更改及更新网页日期,这样并不能带来额外效果。

如果您的网页很实用,那就很实用,与新旧无关。

如果某个网站包含经常变更的重要内容,我们便会经常抓取该网站,无论其规模如何。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值