网站地图创建终极指南:一步步提升搜索引擎可见性

搜索机器人通常通过追踪链接来探索您的网站。问题在于爬虫可能永远无法到达某些页面:要么因为您的网站规模过大,要么因为没有链接指向这些页面。这就是网站地图存在的意义。

本文将探讨XML网站地图对网站的益处,解析不同类型的网站地图,并指导如何创建规范的网站地图。文末附赠信息图,系统总结了本文涵盖的网站地图构建技巧。

什么是网站地图?

网站地图是一个列出网站所有URL的文件,它能帮助爬虫和用户更轻松地浏览网站。

搜索爬虫利用网站地图确保重要内容不会被遗漏。网站地图引导搜索引擎爬虫访问其可能从未涉足的区域,最终帮助搜索引擎更高效地导航和索引网站内容。

网站地图还能向搜索引擎传达您认为网站哪些页面和文件最为重要。它们为每个文件提供额外的元数据,包括最后修改日期和更新频率。

您的网站需要网站地图吗?

根据谷歌的建议,在以下情况下可能需要添加网站地图:

  • 网站规模庞大:大型网站的内部链接管理难度较大,谷歌爬虫也更难发现新页面。XML网站地图能帮助谷歌发现深层内容,从而解决这一问题。
  • 网站新创建且缺乏反向链接:网络爬虫依赖其他网站的链接来抓取新页面。若无外部链接指向,Googlebot更难发现这些页面。网站地图能显著加快Google的内容检索速度。
  • 网站拥有大量新鲜媒体内容:Google可通过网站地图获取额外信息用于搜索,尤其当您的网站包含富媒体内容或被Google新闻收录时。

另一方面,对于页面数量约500页以内、内部链接体系完善且媒体文件或新闻页面较少的小型网站(此类页面通常对排名至关重要),网站地图可能并非必需。创建网站地图虽无害处,但在此类场景中收效甚微。最终决策权在您手中。

拥有XML网站地图有哪些好处?

若您拥有包含大量媒体文件的大型网站,或正在启动新项目,建议创建网站地图。多数SEO从业者一致认为,网站地图对索引和排名至关重要。接下来让我们详细探讨这些优势:

更快索引

创建XML网站地图能帮助搜索引擎识别需收录的页面。将URL纳入网站地图可向谷歌传递该页面质量较高的信号。这有助于搜索引擎更快发现新页面,从而加速索引流程并提升网站在搜索结果中的可见度。

需注意谷歌可能忽略您的请求,因为所有页面必须符合谷歌的质量标准才能被收录。

更佳的深层页面索引

网站地图是实现深层页面索引的关键。深层页面距离主页需多次点击才能到达,无法通过常规网站导航方式轻易发现。

将深层页面纳入网站地图,可确保搜索引擎知晓其存在并轻松定位。

若网站结构复杂(例如表单提交后的页面或仅通过搜索功能可访问的页面),网站地图尤为重要。

监控已索引页面

网站地图本身虽不能直接监控已索引页面,但为搜索引擎提供了对照基准——可比对实际索引页面与网站地图所列内容。

结合Google搜索控制台使用网站地图,可帮助您追踪网站地图中哪些URL已被索引。

定期对比站点地图与实际被索引页面,可识别差异或遗漏页面。若站点地图中某些页面未被索引,可能表明存在索引或抓取问题,例如技术错误、屏蔽指令或内容质量问题。

包含您页面的区域版本

要让谷歌了解您页面的区域版本,您可以在网站地图中列出这些版本,并添加特殊的hreflang属性。

这并非组织多语言网站的唯一方法,但部分网站管理员认为这是最简便的方式。

更佳的用户体验

结构合理的视觉网站地图也能帮助用户浏览网站。当用户无法通过主导航菜单找到所需内容时,他们会访问网站地图。用户还可能通过它查看您拥有多少主题或产品。因此保持HTML网站地图的用户友好性至关重要。为此,请按类别组织页面并使用描述性锚文本。

站点地图格式

站点地图主要分为两类:HTML站点地图和XML站点地图。其他较少使用的类型包括文本站点地图、RSS、mRSS及Atom 1.0格式。每种格式各具功能:XML站点地图对SEO和索引至关重要,而HTML站点地图则用于优化用户导航和可访问性。页面组织结构决定了访客的浏览路径,并直接影响潜在客户转化能力。结构合理的网站能更顺畅地引导用户完成从发现到转化的客户旅程。

下面我们将详细探讨这些类型。

HTML网站地图

HTML网站地图是一个网页,其中列出了指向网站最重要部分和页面的链接。以下是一些设计精良的HTML网站地图示例:联邦快递和汉莎航空。


HTML网站地图的核心目的是帮助用户(而非机器人)快速浏览网站,并提供主要版块的概览。另一方面,根据约翰·穆勒的观点,若网站已具备清晰的导航结构,则无需创建HTML网站地图,只需优化现有结构即可。

XML网站地图

XML网站地图是以XML格式存储的文件,通常命名为sitemap.xml,存放于网站根目录。该文件向搜索引擎明确标注链接地址、页面更新日期及其他相关参数。由于所有参数均通过特殊标签标记,XML文件的结构与网站HTML代码相似:


虽然XML网站地图在视觉上可能不够美观,但它们对搜索引擎优化至关重要。创建XML网站地图能让爬虫全面理解网站结构,帮助它们轻松发现新内容,并带来更多益处。

除了列出网站URL的标准XML网站地图外,谷歌还允许创建图片和视频内容的自定义网站地图,以及新闻网站地图。XML网站地图通常位于根目录:exampledomain.com/sitemap.xml

RSS、mRSS和Atom 1.0网站地图

内容管理系统会自动生成RSS、mRSS和Atom 1.0格式的网站地图,其结构与XML网站地图相似。

文本站点地图

文本站点地图是小型网站的简易解决方案。您可创建.txt文件,列出所有希望谷歌抓取的URL。例如,若网站仅有10个页面,可在.txt文件中逐行列出。与XML站点地图类似,该文件必须位于根目录:exampledomain.com/sitemap.txt。

其他站点地图类型

建议为图片、新闻和视频分别创建独立的站点地图文件。每份专用站点地图可包含特定格式的详细信息,例如视频时长、评分或发布时间。

图片站点地图专为向搜索引擎提供网站图片信息而设计。其作用在于告知谷歌您网站上那些搜索引擎可能无法自动发现的图片,包括通过JavaScript代码调用的图片。


创建视频站点地图有助于谷歌发现并理解您网站上的视频内容,特别是新添加的内容或爬虫难以发现的视频。在视频站点地图中,您可以指定视频时长、分级、是否适合家庭观看等详细信息。


根据谷歌的建议,无需列出与主页面内容无关的视频。例如,作为次要补充或与正文内容无关的视频不应包含在内。此外,视频站点地图中引用的所有文件均不应被robots.txt规则禁止抓取,也不应被防火墙或类似机制阻挡。这些文件必须无需通过元文件即可访问,且不要求登录凭证。

新闻站点地图

新闻站点地图专为发布新闻文章的网站设计。它向搜索引擎提供新文章信息,包括URL、发布时间、标题及其他重要细节,如文章所属语言或发布时间。


新闻站点地图有助于搜索引擎更有效地识别和索引时效性强的新闻内容,从而提升网站在新闻相关搜索结果中的可见度。

谷歌需要快速发现新闻文章。事实上,谷歌仅允许将过去两天内发布的新鲜文章纳入新闻站点地图,以确保用户获取最新资讯。单个新闻站点地图最多可包含1000篇报道,但需及时移除过期内容。最后也是最重要的条件是:您的网站必须在谷歌新闻完成注册。

如何创建XML站点地图文件

下面介绍几种最常见的站点地图创建方法。

网站管理员通常会选择以下方案之一:

  • 手动创建网站地图
  • 网站地图生成器
  • 内容管理系统插件

让我们逐一审视这些方法。

内容管理系统插件

生成XML网站地图最便捷的方式是通过内容管理系统(CMS)。由于CMS平台会存储网站所有页面信息及您所做的任何调整,它们能自动将这些数据整合到动态网站地图中。

部分CMS平台具备内置站点地图生成功能,例如Magento、Shopify、Wix和Squarespace。对于WordPress、Joomla、Drupal或OpenCart等其他主流CMS平台,则需要安装专用插件实现。

WordPressYoast SEO、Google XML Sitemaps、WordPress XML Sitemap Plugin、All in One SEO Pack
JoomlaOSMap、JSitemap、Sitemap Cache
DrupalSimple XML sitemap
OpenCartAll In One Seo Extension、XML Sitemap、XML Sitemap Generator by Cuispi

上表列出了主流内容管理系统(CMS)平台的顶级站点地图插件。为您的网站选择合适插件时,请特别关注插件功能。优质的SEO解决方案应支持从XML站点地图中排除不适宜的页面,例如404页面、重定向页面、noindex页面及规范化页面。同时需关注自定义选项,以便轻松调整文件包含的页面范围。

网站地图生成器

若您的网站未基于内容管理系统(CMS)构建,或现有CMS选项不适用,可使用专用网站地图工具生成包含所有必要页面的XML文件。此方法通常比安装插件更为便捷。

市场上有免费和付费两种选择,请仔细研究每款工具的功能。付费生成器可创建可定制的动态网站地图,而大多数免费解决方案功能过于基础且缺乏关键特性。免费生成器通常会创建包含所有网站页面的静态网站地图,包括规范化URL、noindex URL和重定向URL。

若无法采用付费方案或内容管理系统,可考虑使用SE Ranking的网站审计工具创建站点地图。该工具能在数分钟内基于最新爬取数据生成网站静态站点地图。


默认情况下,该工具仅在XML网站地图中包含200状态码的正常页面,同时会排除4xx、3xx状态码页面、noindex页面以及其他通常需要排除的页面。


使用SE Ranking网站审计工具生成XML网站地图时,请确保爬行限制足够高。检查爬行限制是否覆盖网站所有页面,避免网站地图遗漏重要页面。

若现成方案均不适用于您的网站,可创建自定义XML网站地图。由于此操作需要编程技能,您必须聘请开发人员为网站制作合适的动态网站地图。

手动创建站点地图

若网站规模不大,您可自行创建站点地图文件。只需打开任意文本编辑器,使用XML代码创建站点地图文件即可。以下是一个简单的XML站点地图示例:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.example.com/url1/</loc>
    <lastmod>2024-11-20</lastmod>
  </url>
  <url>
    <loc>https://www.example.com/url2/</loc>
    <lastmod>2024-11-19</lastmod>
  </url>
  <url>
    <loc>https://www.example.com/url3</loc>
    <lastmod>2024-11-18</lastmod>
  </url>
</urlset>

Sitemaps.org 是谷歌推荐的实用资源,其中列出了可在 XML 文件中使用的标签。现在,让我们逐一解析每种标签类型,明确其功能用途及正确使用方式。

必填标签:

  • <urlset> 是必填元素,用于封装站点地图,并通过 xmlns 属性标明所采用的 XML 站点地图协议标准版本。协议标准亦称为命名空间。
  • <url>是另一必备元素,用于标记包含单个URL完整信息的区块。
  • <loc>作为强制性末尾元素,用于标注页面URL本身。所有列出的URL必须为完全限定形式,包含站点协议(HTTP或HTTPS)及域名中的www前缀(若域名包含该前缀)。

可选标签:

  • <lastmod> 标记页面内容的最后更新时间。据谷歌分析师加里·伊利耶斯称,该标签被视为爬虫判断页面抓取频率的信号。但2024年谷歌API泄露事件揭示,谷歌可能并不完全信任该标签,因此仅在内容发生重大变更时才应更新标签。

已废弃标签:

  • <changefreq> 用于定义页面变更频率,可设置为:always(始终)、hourly(每小时)、daily(每日)、weekly(每周)、monthly(每月)、yearly(每年)或 never(永不)。
  • <priority> 用于设定页面抓取优先级(有效值范围为0.0至1.0)。

但根据谷歌2024年12月更新的站点地图构建指南最新版本,谷歌已明确表示将忽略上述标签。

谷歌对网站地图文件的要求

为确保您的网站地图被谷歌收录,请遵循网站地图协议。

首先在指定网址时使用统一的语法。

XML网站地图文件应采用UTF-8编码,所有数据值(包括网址)必须进行实体转义。

新闻、图片和视频网站地图需要使用不同标签,例如<news:news>。图片/新闻/视频网站地图所需的所有标签均在本文档中说明:

  • News sitemaps
  • Image sitemaps
  • Video sitemaps

最后,您可以使用任意喜欢的文件名,只要字符符合URL规范即可。但请注意,曾发现过文件名含连字符的URL存在故障。

通过站点地图索引文件管理站点地图

搜索引擎抓取XML站点地图的能力有限。未压缩文件的最大尺寸应为50MB,且包含的URL不超过50,000个。谷歌设置此限制旨在防止服务器因处理大文件而过载。若网站规模庞大且站点地图文件过大,必须将其拆分为多个小文件。随后创建站点地图索引文件列出这些子站点地图,并将索引文件提交给谷歌。

具体操作步骤:

  1. 创建多个独立的站点地图文件,并使用gzip等工具进行压缩,这可在需要时节省带宽。压缩文件将带有.gz扩展名,例如sitemap.xml.gz。
  2. 将所有独立站点地图添加到站点地图索引文件中,如下例所示:


该示例展示了一个XML格式的站点地图索引文件,其中列出了两个站点地图。

更多信息请参阅Google文档。

决定站点地图包含哪些页面

本节内容极其重要,请仔细阅读!

一个常见误区是认为需要将网站所有页面都包含在XML站点地图中,以帮助Google抓取和索引网站。但Google并不需要查看您网站的所有页面。您只需告知Google那些您认为值得获得高排名的优质页面。这会促使Google优先处理这些页面,但请记住Google可能采纳也可能不采纳您的建议。以下是网站地图中应包含(及不应包含)的页面列表。

返回200 OK状态码的页面

通常而言,添加到列表中的所有页面都必须是200 OK状态码页面,且必须包含高质量、以用户为中心的内容。请排除所有不符合这些标准的页面。

请参阅这份HTTP状态码指南。内容通俗易懂,有助于理解各类状态码含义。

你还应重点标注应纳入网站地图的核心200 OK页面类型:

  • 首页
  • 主菜单页面
  • 分类页面
  • 子类别
  • 博客页面
  • 内部页面
  • 联系页面
  • 品牌信息页面

由于这些页面对您的排名和整体业务成功至关重要,必须确保谷歌能够识别它们。

不应包含在站点地图中的页面

3XX页面

3XX响应代码表示页面已被重定向至新地址。此类页面不应出现在您的XML站点地图中。

相反,应将最终目标URL纳入网站地图,因为这些才是重定向后实际提供内容的页面。此举有助于搜索引擎更好地理解网站结构,并正确收录与排名您的内容。

4XX页面

4XX响应代码表示请求的页面不存在或访问受限。请将此类页面排除在网站地图之外。

404页面属于已删除页面,若属人为删除,请勿将其纳入XML网站地图。

软404页面同样不利于SEO优化。此类页面虽返回200级成功状态码,但实际存在以下问题:内容稀少或空缺、包含跳转至主页的链接、或包含被robots.txt文件屏蔽的404页面。强烈建议您及时修复此类问题。

另一个常见的4XX状态码是401,表示谷歌"未获授权"访问该页面。这类页面通常面向已登录用户,不应被谷歌收录索引,因此不值得纳入站点地图。

5XX页面

5XX状态码表明您的网络服务器存在问题。最常见的是503服务不可用错误,表示服务器暂时无法访问。这种情况可能发生在网络服务器维护或超载时。

若错误仅出现一次,通常无需担忧,可能是计划内服务器维护所致。但若问题持续存在,则需立即排查根本原因并解决。否则谷歌可能判定您的网站维护不善。

在站点地图中添加或移除5XX页面并无实际意义。重点应放在修复问题上,确保返回200 OK状态码。

不可索引页面

每个网站都存在若干对用户重要但对搜索引擎无用的实用页面,包括登录页面、需登录后访问的页面、排序筛选页面等。常见做法是通过robots.txt文件屏蔽这些页面,防止谷歌访问。您也可允许谷歌抓取页面,但通过特殊指令(noindex或all)限制其索引。

这些页面本就不应出现在XML网站地图中。若某页面无法被索引却出现在网站地图中,既会混淆谷歌又会浪费抓取预算。被robots.txt文件屏蔽的页面同样如此——谷歌不会抓取它们。

建议定期审核网站,确保noindex指令和robots.txt文件使用正确,避免误封禁无关页面。

您可在SE Ranking问题报告的"抓取与索引"板块查找此类页面。


点击对应的页面计数,即可查看被标记为noindex或被robots.txt文件屏蔽的URL完整列表。该页面还会显示其他重要参数,包括指向该页面的内部链接数量、所有robots元标签和x-robots标签,以及页面标题。您还能立即查看每个页面当前是否包含在XML网站地图中。

非规范页面

规范标签用于标识两个或多个相似页面中的主页面。谷歌的工作是索引并排名首选页面,同时忽略重复或近似重复的页面。带有规范标签的相似页面可能具有完全不同的URL,也可能具有相似的URL(例如在排序和过滤过程中生成的URL、带有UTM标签和跟踪参数的URL)。

有时规范标签还用于确保页面同时支持HTTP/HTTPS协议访问,以及带/不带www前缀的访问。此时需将主版本页面(如HTTPS非www版本)标记为rel=canonical。但多数网站更倾向于采用服务器端重定向,因其操作更直接,且能确保仅首选版本被索引。

规范标签的工作方式与重定向不同,更像是建议而非指令。谷歌既可遵循也可忽略这些标签。因此,在站点地图中包含非规范URL会让搜索引擎感到困惑。若页面未标记为规范URL,谷歌会默认您不希望该页面被索引。但同时,将页面添加到XML站点地图又会促使谷歌进行索引。这将导致谷歌索引所有页面版本,从而引发关键词内耗现象。

搜索引擎也可能索引非规范URL,这进一步凸显了明确指定主页面至关重要的原因。

静态站点地图与动态站点地图

此时您或许在思考:每当发布新页面或改版现有页面时,需要花费多少时间更新站点地图?若采用静态站点地图,保持XML站点地图实时更新颇具挑战。好消息是:动态站点地图能轻松规避此困扰。

动态站点地图会在网站变更时自动更新。例如删除页面导致404错误时,该页面将立即从站点地图中移除。若将页面标记为noindex或添加至robots.txt文件,该页面同样会被从站点地图中删除。反之,当创建新页面并标记为规范链接时,它将立即被添加至站点地图。您只需正确配置工具,确保其动态生成站点地图即可。

动态站点地图是保持站点地图及时更新的理想方案,因为它会在搜索引擎每次请求时生成。但由于可能增加服务器负载,我们仅建议频繁更新的大型网站使用此方案。

合并图像、视频和新闻站点地图

您的网站内容有时可能同时属于多个类别,例如包含嵌入图像和视频的新闻文章。您可以通过将图像、视频和新闻站点地图合并为一个大型文件来解决此问题。

操作步骤:

  1. 对于每个要纳入共享站点地图的站点地图,请使用urlset标签中的xmlns属性指定声明支持标签的对应命名空间。
  2. 合并站点地图时,请按各站点地图文档说明,将目标站点地图的标签依次添加至对应的<url>标签中。

在 robots.txt 文件中添加站点地图

在 robots.txt 文件中添加站点地图引用是通知搜索引擎站点地图的最安全、最简便的方式。robots.txt 文件通常位于网站服务器的根目录下,您只需添加站点地图指令即可,如下图所示:


此做法有助于搜索引擎发现您的网站并更高效地理解其内容,从而更轻松地识别和索引网页。

虽然在robots.txt文件中公开站点地图有助于索引,但任何人都能轻易找到这些文件。若您希望将某些页面隐藏于公众视野之外,这可能构成问题。

如何向谷歌提交网站地图

根据生成网站地图的工具不同,您可能需要手动添加至网站,也可能已自动生成——内容管理系统生成的动态列表通常属于此类。当XML网站地图自动添加至网站时,通常位于yoursite.com/sitemap.xml路径下。

若使用工具生成XML网站地图文件,请手动将其上传至网站根目录。可通过cPanel或FTP客户端(如Total Commander、FileZilla)完成操作。上传前务必验证网站地图有效性,手动创建的文件尤需注意。您可使用免费工具(例如此工具)检查XML网站地图是否正常运行。


当您的网站拥有有效的站点地图后,即可通过站点地图报告将其提交至谷歌搜索控制台(GSC)。只需点击“添加新站点地图”,输入站点地图网址,然后点击“提交”按钮即可。


请查看“状态”列,确认Google能否正确处理您的网站地图。若一切顺利,将显示“成功”状态。若网站地图已被解析但Google检测到错误,状态将显示为“存在错误”。最后,若Google无法抓取您的网站地图,则会显示“无法获取”状态。

请修复所有网站地图错误,确保网站地图状态显示为“成功”。


在站点地图报告的同一表格中,您将看到被发现的URL数量。理想情况下,该数字应与您添加到站点地图的URL数量一致。

最后,点击三个点按钮进入页面索引报告。这将帮助您更深入地了解谷歌如何抓取和索引您的网站。通过研究该报告,您可以更有效地从XML站点地图中移除低质量页面,并补充遗漏的页面。

常见网站地图错误

请参考以下网站地图错误及其处理方案:

  1. XML格式无效:网站地图必须遵循XML格式规则。请使用正确的XML语法构建网站地图结构。如前所述,使用XML验证工具对网站地图进行验证。
  2. 被robots.txt屏蔽、无法访问或未被抓取的URL:根据您是否需要索引这些URL,需解除屏蔽或将其从网站地图中移除。
  3. 缺失或错误的URL:请确认网站地图中所有URL均正确有效且可访问。检查是否存在缺失或失效链接并及时更新。同时需包含每个URL的规范版本,以避免重复内容问题。
  4. 站点地图过大:若站点地图超过最大限制(通常为50MB或50,000个URL),请拆分为多个站点地图并创建站点地图索引文件进行关联。
  5. 路径不一致:确保网站地图中URL的"www"使用保持统一。若网站地图位于https://example.com/sitemap.xml,则所列URL均不应包含www;若位于https://www.example.com/sitemap.xml,则所有URL都应包含www。

建议使用网站审计工具检测站点地图错误,并将问题汇总至独立报告。该工具可显示XML站点地图中是否存在以下问题:包含noindex标记的页面、非规范页面、3XX/4XX/5XX状态码页面等。


定期监控网站地图、评估其结构并及时处理任何错误或问题,有助于搜索引擎有效抓取和索引您的网站。

【源码免费下载链接】:https://renmaiwang.cn/s/gbu02 grep命令是一个强大的文本处理工具,在Linux系统中被广泛使用。它能够有效地搜索文件中的特定模式,并提供灵活的匹配方式以满足不同需求。作为全名是Global Regular Expression Print的软件,grep采用基于posix标准的正则表达式系统,支持基本功能和扩展特性。 在实际操作中,用户可以通过调整选项来控制搜索结果的表现形式。例如,“-c”选项可以仅显示符合条件的结果数量,“-i”则能实现不区分大小写的匹配效果。“-n”帮助展示包含目标模式的具体行号,“-s”则用于隐藏错误信息,而“-v”则与之相反,只呈现不符合条件的行。 正则表达式的核心在于元字符的应用。这些特殊符号赋予了grep强大的搜索能力,从简单的字符匹配到复杂的模式构建都能胜任。例如,“^”和“$”分别标识文本的起始和结束位置;方括号内部的字符可以进行范围匹配;转义操作允许用户解除默认含义的影响。 实践过程中,用户会发现部分正则表达式功能仅限于grep的基本版本,而更复杂的扩展需要借助egrep或pcre库的支持。此外,结合perl语言风格的正则表达式接口也能进一步提升搜索效率。 值得注意的是,在使用这些工具时,开发者需特别留意特殊字符的转义规则以及括号内的范围限定。通过深入理解和灵活运用这些机制,用户可以充分发挥grep的强大功能,完成各种复杂的文本处理任务。 综上所述,熟练掌握grep命令及其背后的正则表达式知识将显著提升文本处理效率和准确性。希望本文能为您提供有价值的参考和指导。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值