浅谈SEO的关键：中文分词(转自http://blog.csdn.net/diehuan2008)

在搜索引擎技术中，中文分词对于影响搜索引擎结果排序有着至关重要的作用。我们在实际的搜索引擎优化中，为了避免很多主关键词的大量竞争，也会使用到中文分词技术来做SEO优化。举个简单的例子，假如我们需要优化一个内容是“轴承”的网页，那么想要这个关键词在搜索引擎中排名更好，那就是很难的一件事了。因为“轴承”这个关键词热度太高，所以想要通过SEO手段去将其优化到搜索结果的首页是一件非常难的事。在这个时候我们经常会使用长尾关键词去优化这样的高热度关键词，也就是说，我们经常会优化一些例如“北京轴承销售商”、“北京进口轴承”等这样的关键词。而想要把这样的关键词做到搜索结果的前列，对于中文分词技术的把握和对于关键词的布局，有很大的重要性。

中文分词在中国已经是有很久的历史了，明朝末年有一位画家叫做徐渭（文长），据说因为他家过于贫困，根本没有粮食可吃，因此只好跑到亲戚朋友家“蹭饭”。一次两次亲戚朋友不觉得什么，但是时间长了，就感觉很厌恶徐渭。终于有一天，亲戚忍无可忍，不顾外面下着春雨就想把徐渭赶出去，于是在墙上写了一行字，委婉的下了逐客令：

“下雨天留客天留人不留”

徐渭看到那行字以后，心里自然明白亲戚的意思。但是到了晚上亲戚回到家一看，徐渭居然又在饭桌前等候。主人很奇怪，就问徐渭：“你看到墙上的字了吗？”徐渭笑笑：“看到了，但是没想到你这么好客，既然这样，我也不客气了，就继续住下去吧！免得你自责招待不周。”说完，指指墙上的字，主人一看，差点气晕过去，原来，徐渭在这行字上加了几个标点符号，主人无奈，只好让徐渭继续留下。徐渭是这么写的：

“下雨天，留客天。留人不？留。”

中国的文字博大精深，不同的标点符号，不同的断句就代表着不同的意思。所以，曾经有一位Google的科学家说：“如果可以做好中文搜索引擎，那么我们就不怕任何语种的搜索引擎研究了。”

那么中文分词在搜索引擎优化中到底具有怎样的意义呢？分词对SEO的影响是多方面的，最重要的就是对长尾流量的影响。例如说我们常常见到很多很想做的长尾关键词，例如广州进口轴承销售，上海进口轴承销售等等，但我们通过前文对于SEO的了解可以知道，一个页面做关键词不要超过三个，因为超过三个就会分散了每个关键词的权重，反而一个都做不好。但如果我们想超过三个又不影响呢？那么我们这时候就需要利用中文分词来对关键词进行组合了，例如<title>进口轴承销售-上海-广州<title>。这样分出来的结果可能没有广州进口轴承销售或上海进口轴承销售的关键词来的直接，但用这样分词的办法却使到很多词都获得不错的效果。多个词排名在搜索引擎结果页的首位，总是要比一个关键词排名在第一位的覆盖面要广。久而久之，因为广州+进口轴承销售、上海+进口轴承销售这些页面让搜索引擎知道你的页面和“进口轴承销售”这个关键词相关度很高，因此进口轴承销售这个主关键词的排名也会相对提高。

当然，我们上面举得例子是还没有完全对于关键词进行完全的拆分。下面我们就对中文分词做一个粗略的讨论。

最早的中文分词办法是由北京航天航空大学的梁南元教授提出的，一种基于“查字典”的分词办法。例如这个句子：“著名导演张艺谋说国庆节晚上将安排十万人到天安门联欢。”

用 “查字典” 的分词方法，我们要做的就是把整个句子读一遍，然后把字典里有的词都单独标示出来，当遇到复合词的时候（例如北京大学），就找到最长的词匹配。遇到不认识的字符串就分割成单个文字。根据这样的办法，我们以上的文字可以切分为：

“著名 | 导演 | 张艺谋 | 说 | 国庆节 | 晚上 | 将 | 安排 | 十万人 | 到 | 天安门 | 联欢”

这样的分词办法虽然说可以应付很多的句子，但是由于细分的太多，在真正搜索引擎使用的过程中，到底哪一个词才是重点就无法表述，从而搜索引擎搜索出的结果也不能达到最大的相关度。于是在80年代，哈尔滨工业大学计算机博士生导师王晓龙博士提出了“最少词数”的分词理论，即为，一句话应该是分词最少的字符串，这样会更多的让搜索引擎更明白这句话到底是什么意思。但是这样的办法虽然更好，新的问题却也显现了出来。例如，我们在做“二义性”关键词组的时候，就不能说最长的分割就是最好的结果。举个例子，“吉利大学城书店”这个关键词正确的分词应该是“吉利 | 大学城 | 书店”而不是词典中的“吉利大学 | 城 | 书店 ”

目前，主流的分词办法有两种，一种是基于统计模型的文字处理，另外一种是基于字符串匹配的逆向最大匹配法。

基于统计模型的文字处理

从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计，不需要切分词典，因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性，会经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典（常用词词典）进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。（上文引自SEO专家论坛）

基于统计模型的文字处理，因为技术性比较高，而且只是使用在搜索引擎分词算法的过程中，如果学会，对于SEO的帮助会更大，各位可以加入我的SEO培训班进行深入讨论。这里更多的说一下基于字符串匹配的逆向最大匹配法。

一般来说，我们在SEO中使用最多的分词办法就是基于字符串匹配的逆向最大匹配法。这个办法其实很简单。我们以一个简单的例子来说明。

“瑞星一直以质量和服务开拓安全市场”。

如果这个句子我们以“查字典”的办法正向切分的话，就会切分成下面的句子。

“瑞/星/一直/以/质量/和服/务/开拓/安全/市场”

我们可以看到，正向切分出现了一个重大的错误“和服”，而“和服”这个关键词是日本的传统服饰，和这句话的意思根本没有任何关系，如果真的这样去分词的话，那么在真正搜索引擎索引的过程中，我们搜索“和服”也会出现这样的错误结果。

因此我们开始做逆向最大匹配法。从这句话的后面往前读（从右向左）

“瑞/星/一直/以/质量/和/服务/开拓/安全/市场”。

这个分词办法才是正确的。

在搜索引擎运行的机制中，有很多种中文分词的办法，例如上一篇文章中提到的正向最大匹配分词、逆向最大分析、基于统计的分词等。但是在实际的搜索引擎运行过程中，分词的办法却没有这么简单了。因为搜索引擎不仅仅要去考虑到分词结果的正确性，还需要考虑到对于分不出来的词的处理。

首先我们来讨论分词结果的准确度，一般来说，搜索引擎是使用多种分词的方式构成一个混合分词方式来进行分词的，因为这样可以让词汇最大化的、更准确的分开。混合分词的原理是：先使用专业词典进行分词，之后再使用普通词库进行一次分词。以一个简单的例子来说明这个问题。

例如我们现在有这样一句话“电子邮件营销”如果我们的词库中有“电子邮件”这个关键词，那么就可能会被分成是“电子邮件/营销”，如果没有这个词的话，那么就有可能被分为：“电子/邮件/营销”这样我们就出现了一个问题，假如我们单纯的使用第一种分词方式和词库，那么我们如果单纯搜索“邮件”“营销”这样的关键词时，就找不到“电子邮件营销”这样的结果，同理，单纯的使用第二个词库，也找不到“电子邮件”这个词。

因此在这里我们就需要使用混合分词的办法了，我们拥有之上两个词库和两种以上的分词方法。同样的例子，如果我们加以综合，分词的结果就变成了下面的形式。

电子邮件营销=>电子邮件/邮件营销=>电子/邮件/营销

这样的分词方法，就可以帮助我们更多的获得准确的搜索结果

那么对于分不出来的词，搜索引擎又是如何操作的呢？

网络文化发展速度快的标志不仅仅是我们日益提高的硬件和网速，更多的是表现在新生词汇的诞生。那么新词刚刚出来的时候，搜索引擎并不知道怎么切分时，该怎么办呢？

例如前一段时间把百度百科推到风口浪尖的新词汇“草泥马”，这个新词的出现一定是百度所始料不及的，那么如果出现了下面的这样一句话，百度又是如何去分词的呢？

“草泥马是一种食草动物”

一般来说，搜索引擎遇到这样的关键词时，会采取一元分词+二元分词+混合分词+不分词的方式来解决这样的问题。如果是一元分词，那么这句话分出来的结果应该是：“草/泥/马/是/一种/食草/动物/”或者“草/泥/马/是/一种/食草动物/”或者“草/泥/马/是/一种/食/草/动物/”

但是显然，这样的结果如果我们单纯搜索“草泥马”这个关键词时，是不会准确的被认为是相关内容的。因此，继续使用二元分词的办法“草泥/泥马/是/一种/食草/动物”。有了这个分词方式以后，我们原来句子出现在索引结果中的概率就变大，但是这个依然不是最好的，于是搜索引擎还有第三种方式——干脆不分，以保持新词的完整性。

在经过了这一系列的分词程序后，实际分词的结果是如同下面这样的。

草泥/泥马/草泥马/是/一种/食草/食/草/动物/食草动物