在搜索引擎运行的机制中,有很多种中文分词的办法,例如上一篇文章中提到的正向最大匹配分词、逆向最大分析、基于统计的分词等。但是在实际的搜索引擎运行过程中,分词的办法却没有这么简单了。因为搜索引擎不仅仅要去考虑到分词结果的正确性,还需要考虑到对于分不出来的词的处理。
首先我们来讨论分词结果的准确度,一般来说,搜索引擎是使用多种分词的方式构成一个混合分词方式来进行分词的,因为这样可以让词汇最大化的、更准确的分开。混合分词的原理是:先使用专业词典进行分词,之后再使用普通词库进行一次分词。以一个简单的例子来说明这个问题。
例如我们现在有这样一句话“电子邮件营销”如果我们的词库中有“电子邮件”这个关键词,那么就可能会被分成是“电子邮件/营销”,如果没有这个词的话,那么就有可能被分为:“电子/邮件/营销”这样我们就出现了一个问题,假如我们单纯的使用第一种分词方式和词库,那么我们如果单纯搜索“邮件”“营销”这样的关键词时,就找不到“电子邮件营销”这样的结果,同理,单纯的使用第二个词库,也找不到“电子邮件”这个词。
因此在这里我们就需要使用混合分词的办法了,我们拥有之上两个词库和两种以上的分词方法。同样的例子,如果我们加以综合,分词的结果就变成了下面的形式。
电子邮件营销=>电子邮件/邮件营销=>电子/邮件/营销
这样的分词方法,就可以帮助我们更多的获得准确的搜索结果
那么对于分不出来的词,搜索引擎又是如何操作的呢?
网络文化发展速度快的标志不仅仅是我们日益提高的硬件和网速,更多的是表现在新生词汇的诞生。那么新词刚刚出来的时候,搜索引擎并不知道怎么切分时,该怎么办呢?
例如前一段时间把百度百科推到风口浪尖的新词汇“草泥马”,这个新词的出现一定是百度所始料不及的,那么如果出现了下面的这样一句话,百度又是如何去分词的呢?
“草泥马是一种食草动物”
一般来说,搜索引擎遇到这样的关键词时,会采取一元分词+二元分词+混合分词+不分词的方式来解决这样的问题。如果是一元分词,那么这句话分出来的结果应该是:“草/泥/马/是/一种/食草/动物/”或者“草/泥/马/是/一种/食草动物/”或者“草/泥/马/是/一种/食/草/动物/”
但是显然,这样的结果如果我们单纯搜索“草泥马”这个关键词时,是不会准确的被认为是相关内容的。因此,继续使用二元分词的办法“草泥/泥马/是/一种/食草/动物”。有了这个分词方式以后,我们原来句子出现在索引结果中的概率就变大,但是这个依然不是最好的,于是搜索引擎还有第三种方式——干脆不分,以保持新词的完整性。
在经过了这一系列的分词程序后,实际分词的结果是如同下面这样的。
草泥/泥马/草泥马/是/一种/食草/食/草/动物/食草动物
OK ,我们现在已经知道了中文分词的一些办法,那么以上的两种分词办法对于我们的SEO有什么好处呢?
前文我们讨论过,掌握了中文分词技术,我们就可以让自己的网页有更多的长尾关键词,从而让更多的关键词可以排名在百度、Google的搜索结果前列,那么同上面的这两种分词方法,我们就可以根据更多的这样的分词理论去构建一个长尾的title,长尾的keywords等。让你的网站从更多的关键词中获得流量。
******************************************************************
十三期SEO周末班火热报名!
第一重惊喜:前十位报名者依然享受700元低价的优惠!
第二重惊喜:学期结束后获得价值千元的资料!
第三重惊喜:总送百度专用中文分词词典查询软件!(内部资料!!)
第四重惊喜:总送千兆美国服务器空间!
每周六、周日上课,学期一个月!
SEO培训试听QQ群号码:58769947
每周2、4试听
培训大纲:http://www.zeacens.com/SEO_Peixun.Html
******************************************************************