运用白帽技术实现有机 SEO
L. Jennette Banks (ljbanks@us.ibm.com), 搜索引擎优化专家, IBM作为一名 Web 站点开发人员,使您的 Web 站点得到搜索引擎的关注是获得成功的关键因素之一。在这个共分四部分的系列中,您将学习对 Web 站点进行有机优化所需的基础知识。第 1 部分将为您奠定搜索引擎优化的基础,以便对 Web 站点进行有机优化,并创建对搜索引擎有用、可访问和友好的 Web 页面。
您已经创建了一个很棒的站点,接下来该做什么呢?无论这个 Web 站点的目的是销售产品还是提供信息,如果没有人浏览它,您的努力就白费了。让站点受到关注的方法是让它对搜索引擎和实际受众友好。
向搜索引擎 “推销” Web 站点本身已经成了一种业务,许多顾问、工具和搜索引擎优化(SEO)站点都可以帮助您的站点吸引搜索引擎的注意。或许现在的信息和资源已经太多了。但是,如果您建立了一个可访问且有用的站点,就踏上了通往成功的正确道路。如果您负责一个 Web 站点 —— 无论您是寄希望于专业的搜索引擎公司,还是自己去打理它,都需要了解针对搜索引擎而优化站点的基础知识。
这个分四部分的系列将提供开始您的 SEO 战役所需的工具,无论您计划的 SEO 规模有多大,都会对您有所帮助。在第 1 部分和第 2 部分中,您将学习搜索引擎的工作原理,以及如何创建对搜索引擎和用户都有用且可访问的内容。在这个系列的第 3 部分中,Mike Moran 和 Bill Hunt(Search Engine Marketing, Inc. 的作者)将帮助您使页面进入搜索索引。在第 4 部分中,他们将处理大型 Web 站点特有的搜索营销问题(关于 Search Engine Marketing, Inc. 的更多信息,参见 参考资料)。
在开始学习本系列之前,您需要了解以下术语:
-
目录(Directory)
- 目录是由人为编辑的搜索结果。大多数目录依靠的是人为提交而不是爬行器(spider)。(参见 SEO 和搜索引擎。) 关键字、关键词和关键短语(Keyword、keyterm 和 keyphrase)
- 关键字、关键词和关键短语是 Web 站点在搜索引擎结果页面(也称为 SERP)上排序所依据的词。根据站点受众的不同,您可以选择一个单词、多个单词的组合或整个短语。为简化起见,本文将使用 关键词 这个术语表示所有这三种类型。 链接场(Link farm)
- 在 SEO 术语中,链接场是指一个充满链接的页面,这些链接其实没有实际作用,它们只作为链接存在,而没有任何实际的上下文。那些采用运用黑帽 SEO 方法的人利用链接场,在一个页面中增加大量链接,希望能通过这种方式使 Google™ 误认为这个页面很有链接的价值。 有机列表(Organic listing)
- 有机列表是 SERP 中的免费列表。有机列表的 SEO 通常涉及改进 Web 站点的实际内容,这往往是在页面或基础架构级别进行的。 PageRank
- PageRank 是迷恋 Google 的人们用来测试其站点在 Google 中的排名的一种度量标准。SEO 和搜索引擎营销(SEM)专家也使用这个术语描述网页在 SERP 中的排名以及 Google 根据排名算法给予站点的分数。无论如何定义,PageRank 都是 SEO 的重要部分。(参见下面的 Google 和 PageRank。) 付费列表(Paid listing)
- 顾名思义,付费列表就是只有在付费后才能列入搜索引擎的服务。根据搜索引擎的不同,付费列表可能意味着:为包含于索引之中、每次点击(PPC)、赞助商链接(sponsored link)或者在搜索目标关键词和短语时让站点出现在 SERP 中的其他方式而付费。 排名(Ranking)
- 排名是页面在目标关键词的 SERP 中列出的位置。SEO 的目标是提高 Web 页面针对目标关键词的排名。 排名算法(Ranking algorithm)
- 排名算法是搜索引擎用来对其索引中的列表进行评估和排名的规则。排名算法决定哪些结果是与特定查询相关的。 搜索引擎营销(Search engine marketing,SEM)
- SEM 这个术语可以与 SEO 互换使用,但 SEM 常常是指通过付费和广告向搜索引擎推销 Web 站点,同时应用 SEO 技术。 搜索引擎优化(Search engine optimization,SEO)
- SEO 就是根据对搜索引擎的吸引力和可见性来优化内容,从而使 Web 页面能够被搜索引擎选中。SEO 主要用来提高有机列表的排名。我使用 SEO 这个术语描述我推荐的技术,但是其中许多技术也可以归入 SEM 的范畴。 搜索引擎结果页面(Search engine results page,SERP)
- SERP 是为特定搜索显示的列表或结果。SERP 有时候定义为搜索引擎结果的 安排(placement)。根据本系列的目的,我将其称为页面而不是安排。在 SEO 领域中,在 SERP 中取得良好的表现就是一切。 垃圾技术(Spamming)
-
垃圾技术是一种欺诈性的 SEO 手段,它尝试欺骗爬行器(spider),并利用排名算法中的漏洞来影响针对目标关键词的排名。垃圾技术可以表现为多种形式,但是 “垃圾技术” 最简单的定义是 Web 站点用来伪装自己并影响排名的任何技术。根据是否采用垃圾技术,SEO 方法可分为两大类:
- 黑帽 SEO(Black hat SEO):用垃圾技术欺骗搜索引擎。黑帽 SEO 以伪装、欺诈和窃取的方式骗取在 SERP 中的高排名。
- 白帽 SEO(White hat SEO):以正当方式优化站点,使它更好地为用户服务并吸引爬行器的注意。在白帽 SEO 中,能够带来好的用户体验的任何东西也都被视为对 SEO 有益。
爬行器(Spider)
- 爬行器在 Web 上漫游,寻找要添加进搜索引擎索引中的列表。爬行器有时也称为 Web 爬行榜(Webcrawler)或机器人。针对有机列表优化页面也就是为了吸引爬行器的注意。(参见下面的 SEO 和搜索引擎。)
|
了解了这些定义之后,您可能依然很迷惑:SEO 的目的是什么?SEO 似乎有点儿搞阴谋的味道,不是吗?
良好的 SEO 实践会使站点更实用,可访问性更强,而且对搜索引擎更友好。但是,不守规矩的 SEO 营销企业会运用黑帽 SEO 技术(垃圾技术),这给 SEO 带来了坏名声。但是,任何种类的营销都是这种情况:推销产品的方法有好也有坏,而且有时候坏方法更有效 —— 但只是在短期内。通过黑帽 SEO 技术欺骗搜索引擎是一条危险的道路,会带来糟糕的用户体验。因此本系列只关注白帽 SEO 技术。利用白帽 SEO 技术,您和您的用户都会获益。这是双赢的做法。
如果您的业务是在线式的,那么企业的生存就依赖于 Web 站点受关注的程度。如果人们根本无法找到某个商业站点,又怎么能够从那里买东西呢?而且,问题不仅仅是让潜在顾客找到您的主页并通过站点中的下拉菜单、链接或其他任何东西进行导航。过去,如果您有了一个出色的主索引页,人们就会蜂拥而至,耐心地浏览,直至找到自己所需的信息,但现在已经不再是这种情况了。
人们使用搜索引擎准确地找到您的站点中他们所需的那个页面。如果您的独立页面没有出现在 SERP 的顶部,潜在受众就可能找不到您的站点。用户更可能通过搜索查询进入您的站点,而不是通过页面层次结构进行导航。对于站点管理员而言,这意味着每个单独的页面都必须足够健壮,可以被单独搜索到。必须使站点适应搜索引擎爬行器,然后让页面对用户有足够的吸引力,让用户愿意停留在这里。白帽 SEO 正是这样一种方法。
|
|
为了解释 “让页面足够健壮,可以被单独搜索到” 的含义,我将以 developerWorks Web 站点为例。因为 www.ibm.com/developerworks 的主页是所有 developerWorks 内容的入口,我们针对 “IBM resource [for] developers” 优化主页,使其具有一般化的特点,而且使用这个短语搜索时,在 Google SERP 中这个主页是排在第一位的结果。使用有机优化技术带来了回报。Google 知道这个页面与哪些内容相关,用户点击这个链接后不会失望,他们会进入一个拥有 IBM 提供的开发者资源的丰富页面。
但是,除了主页之外,在 developerWorks Web 站点中还有其他许多东西。一些潜在受众可能会使用我们的导航系统或内部搜索寻找更有针对性的开发者资源,但也有许多其他用户更倾向于使用外部搜索引擎搜索内容,并直接进入相关页面。
例如,如果某位搜索者要查找 “linux developer tutorials”,而 URL 为 www.ibm.com/developerworks/linux 的 developerWorks Linux 页面没有出现在 SERP 的前 10 个结果中,那么在 developerWorks 主页上所做的所有优化对于这位搜索者来说都是没用的。但是,我们在 developerWorks 站点上实践良好的有机 SEO 已经许多年了,developerWorks Linux 页面目前是 “linux developer tutorials” 的 Google SERP 中的第一个结果。良好的 SEO 意味着优化站点上的每个页面,让搜索引擎准确地了解您认为每个页面上最重要的内容。
由于要考虑优化 Web 站点上的每个页面,以提高在搜索引擎结果中的排名,SEO 看似烦琐。您或许想知道是否存在某种诀窍或者更简便的方法。但是,对于提高在搜索引擎结果中的排名来说,不存在诀窍。底线就是创建能让用户赞赏的优秀内容,这样搜索引擎会给予您很好的排名。在这个系列中,您将学习如何实现这个目标。
|
正确地实现了良好的 SEO 也就会创建出对搜索引擎友好、对用户有吸引力的站点。有机 SEO 的收益之一是可访问性非常高的页面。搜索引擎爬行器查看页面的方式与有视力障碍的人所用的页面阅读器相同。可以使用 lynx 浏览器体会一下页面阅读器所看到的站点是什么样的(参见 参考资料 中提供的 lynx 浏览器的链接)。页面阅读器还会展示您的站点在小屏幕上的显示效果,比如手机或其他小型 Web 浏览工具(关于可访问性的更多信息,参见 参考资料)。如果能够使页面具有较好的可访问性,让页面阅读器能够轻松地理解它们,那么页面就是对搜索引擎友好的。
在 SEO 的历史中,大多数臭名昭著的搜索引擎垃圾技术都会创建出对用户不友好或可访问性差的 Web 页面。两种对用户友好性破坏最大的黑帽 SEO 技术是:
- 元标记垃圾技术:在早期,搜索引擎会读取元关键词、描述和其他标记。搜索引擎根据这些标记的内容判断页面的主题,并确定页面在 SERP 中的排名情况。遗憾的是,某些人利用了这一点,在他们的元标记中重复地加上许多相同的单词,让搜索引擎误认为页面包含某些实际上并不存在的内容。这种做法误导了用户和搜索引擎。
例如,如果我们希望将 Linux 用户引导到 developerWorks 主页上,但是这里并没有多少 Linux 内容,那么可能会这样做:“
<meta name="keywords" content="linux, ibm, linux, developer, tutorials, ibm, developer, linux, tutorial, tutorial, tutorials, resources, linux, tutorials, developer" />
。当用户点击 SERP 中列出的这个站点时,将显示 developerWorks 主页,他们会很失望,因为这里只有零星的几个 Linux 教程,而不是像 developerWorks Linux 部分那样专门提供 Linux 教程。正因为有许多人采用元标记垃圾技术实现黑帽 SEO,搜索引擎不再使用元标记中的信息来对页面进行排名了。 - alt 标记欺骗:对 alt 属性的滥用也属于黑帽 SEO ,因为它向用户和搜索引擎提供关于图片的错误信息。例如,developerWorks Linux 页面上某幅图片的 alt 标记可能填充了下面这样的关键字:
<img alt="linux, ibm, linux, developer, tutorials, ibm, developer, linux, tutorial, tutorial, tutorials, resources, linux, tutorials, developer" />
。尽管 Linux 页面确实与 Linux 教程有关,但应保证这幅图片本身确实向页面阅读器传递了关于其内容的准确信息。否则就是对 alt 标记的滥用。
最重要的是要记住,合适的文字对于搜索引擎和用户都很重要。文字要向搜索引擎清楚且真实地表明页面的主题,对用户也是如此。(关于创建良好 Web 页面的更多信息,参见 参考资料。)
|
在想到搜索引擎时,大多数人会想到 Google(可在 参考资料 提供的论坛中进一步了解 Google),但是为了公平地对待所有搜索方法和搜索引擎,我将使用搜索引擎 这个术语。第 1 部分和第 2 部分中的信息是以 Google 为中心的,但也适用于其他大多数主流搜索引擎。根据目标受众的不同,您的目标搜索引擎可能有所不同。因为我只描述白帽 SEO 技术,所以这里提供的工具和知识会使您的 Web 站点对美国的所有主流搜索引擎更有吸引力。美国以外地区的搜索引擎流行情况可能有所不同,但是白帽 SEO 能帮助站点在大多数基于英语的搜索引擎和其他基于爬行器的搜索引擎中获得更好的排名。
目录和真正的搜索引擎之间的差异是,目录是人为编辑出来的,而搜索引擎是由爬行器通过跟踪链接漫游 Web 而建立的。白帽 SEO 的主要关注点在于提高站点在使用爬行器编辑的搜索引擎中的排名。
搜索引擎工作原理 —— 简化版
为了收集数据,搜索引擎让爬行器跟踪链接漫游、组织数据并判断每个页面上的文本与什么内容相关。当搜索者进行搜索时,搜索引擎利用爬行器收集的信息,通过专用排名算法建立与这次查询最相关的站点列表,并显示在 SERP 中。
目录工作原理 —— 简化版
纯粹的目录就像是图书馆中的分类卡,只不过是采用了电子形式。它包含编辑好的已提交到目录中的站点列表。它知道这个列表中有什么,而且知道对于搜索字段中输入的单词应该搜索哪些类别。这是因为最初的提交者常常会选择分类。另外,搜索者可能根据目录的类别进行浏览,寻找带有他所请求的单词的站点。
Google 是真正的搜索引擎。它提供一些来自 Open Directory 或 DMOZ 的目录结果(参见 参考资料),但是大多数结果来自爬行器的漫游和 PageRank 算法(参见 PageRank)。Yahoo!® 是一种目录混合型搜索引擎,它首先搜索自己的目录,然后使用 Yahoo Bot Slurp! 进行搜索引擎搜索。
许多 Web 站点管理员报告说,Google 的搜索索引在他们所有与搜索相关的流量中占主要比例。正因为 Google 如此流行,您很可能希望主要针对 Google 来优化站点(请参见 参考资料 中 Google 自己的统计数据)。
对于 Web 站点管理员来说,幸运的是,Google 之所以成为第一搜索引擎,并不是由于它采用了什么营销手段或者对用户不友好的其他手段,而是因为它是真正的搜索引擎,它的搜索以内容质量和链接质量为依据。Google 一直坚守着 “对用户有益的东西就在 SERP 中具有高排名” 这一原则。
|
Google 有一个 Add URL 工具,但是站点的排名是由链接分析决定的;如果 Google 没有被其他要编入索引的站点引到您的站点,那么就永远不会给予您较高的排名,无论您是否主动提交了站点。通过 Add URL 进行提交并不意味着页面会被自动列出,但是它能使搜索引擎注意到您的页面。过去,SEO 专家建议使用 Add URL 工具对爬行器不易找到的页面进行 “深度提交”。但是,现在 Google 引入了 Google Sitemaps(Google 站点地图),用这种格式进行提交效果会更好。本系列的第 3 部分将详细介绍 Google Sitemaps。
从长远角度来看,在 SEO 方面的努力最好投入在优化站点以促进 Google 和其他爬行器的深度漫游上。
Google 的排名算法是一项顶级机密。关于 Google 的已知情况如下:
- Google 的主要结果来自在 Web 上漫游的爬行器。
- Google 的爬行器只查看页面上的可见文本。
- Google 为以下类型的文件编制索引:html、pdf、ps、wk1、wk2、wk3、wk4、wk5、wki、wks、wku、lwp、mw、xls、ppt、doc、wks、wps、wdb、wri、rtf、swf、ans 和 txt。
- Google 索引的创建过程主要关注页面内容和链接流行度。决定页面在 Google 列表中的排名的部分因素包括:指向这个站点的链接数量、链接到这个站点的站点的质量、指向这个站点的链接中和链接周围的文本以及页面本身链接到的内容。
- Google 公布,其结果由超过 100 种因素决定。
- Google 使用 PageRank 检查 Web 站点的链接结构,从而判断哪些页面是最重要的。
- Google 还会进行它所说的超文本匹配分析(hypertext-matching analysis) 来判断哪些页面与特定的搜索查询相关。
基本上,Google 使用 PageRank 来评估入站链接(链接到您的站点的站点)和出站链接(您的站点链接到的站点)的质量,它会给出一个值来表示这些链接的数量和质量(流行度)。Google 认为的高质量站点会获得更高的 PageRank。然后,Google 综合使用 PageRank 排名和超文本匹配分析来寻找与搜索相关的页面。
为了防止有人利用垃圾技术欺骗搜索引擎,Google 不断改变它的排名算法并更新它的索引。在搜索引擎中获得高排名的最佳方法是,优化站点,切勿依靠排名算法的漏洞来获得高排名。与现实世界中一样,最诚实的 SEO 就是最好的策略。
|
|
在本系列的第 2 部分中,您将了解如何研究关键词并了解 “自左上角向下” 式的关键词优化策略。通过第 3 部分和第 4 部分的学习,您将确定如何运用技术来赢得 SEO 战役,包括如何使您的页面进入搜索索引,并解决大型 Web 站点特有的搜索营销问题。现在,卷起衣袖,动手开始优化吧!
学习
- 您可以参阅本文在 developerWorks 全球站点上的 英文原文 。
- Search Engine Watch:阅读关于搜索引擎的更详细的技术信息,并参与活跃的论坛讨论。
- Jill Whalen 的 High Rankings:了解关于白帽 SEO 技术的建议。
- Bruce Clay 的 Search Engine Relationship Chart:更好地认识所有搜索引擎的关联方式。这些联系经常变化,这个图表也会经常更新。
- Jakob Nielsen 的 Alertbox 中的 The Power of Defaults(2005 年 9 月 26 日):了解搜索引擎用户为什么会更频繁地点击排在第一位的 SERP 条目,这种现象往往不能用相关性排名来解释。
- Jakob Nielsen 的 Alertbox 中的 When Search Engines Become Answer Engines(2004 年 8 月 16日):了解人们如何利用搜索引擎来找到他们当时关心的问题的答案。
- Jakob Nielsen 的 Alertbox 中的 Information Foraging: Why Google Makes People Leave Your Site Faster(2003 年 6 月 30 日):找到提供出色信息的站点越来越轻松了,可为什么用户在每个 Web 站点上停留的时间缩短了?在这篇文章中您或许能找到答案。
- IBM Accessibility Center:这里的大量参考资料可以帮助您学习如何构建可访问性高的应用程序。
- 美国政府的 Section 508:这是了解美国 Rehabilitations Act 的 section 508 和相关可访问性标准的第一站。
- Google 自己的 统计报告:更好地了解目标受众如何使用 Google。
- Google PageRank:从源头更直接地了解 PageRank。
- Search Engine Marketing, Inc. :要想了解如何进入搜索索引、研究搜索者会使用哪些单词来查找您的站点、优化站点以便此类搜索更容易找到您的站点以及增加站点的搜索访问量的其他措施,请参阅 IBM Press 的这本新书。
- DMOZ 或 Open Directory 项目:访问这个早期的人工编辑目录搜索的例子。Open Directory Project 是最大最全面的人工编辑 Web 目录。它由一个庞大的全球志愿编辑社区进行建设和维护。
- Safari 书店:寻找相关主题的图书。
- Web development 专区的技术库:寻找与基于 Web 的解决方案相关的文章和教程。
获得产品和技术
讨论
- WebmasterWorld Google News Forum:讨论最新的 Google 新闻。
- Cre8asite Forums on Google:访问这些关于搜索引擎营销、实用性和 Web 设计的论坛。
- developerWorks blog:加入 developerWorks 社区。
| L. Jennette Banks 从 2000 年开始担任 IBM developerWorks 的 Web 编辑,并从 2001 年开始为 developerWorks 进行有机搜索引擎优化方面的工作。不优化 developerWorks Web 站点的时候,她喜欢和她的小猫小狗共渡,或者在海滩上漫步。Jennette 和她的伴侣(两只吵闹不休的猫和一只憨态可拘的大狗)一起住在北卡罗莱纳州 Research Triangle Park 外的一个小社区中。 |