最近在看走进搜索引擎这本书,大家都说这是小学生的书,不过我看未必。也许他们的意思是小学生都能看懂的书吧。呵呵 。今天看到了中搜索引擎体系结构中的分析系统中的中文分词一节,感觉有东西要记录下所以就开了这个博客。
中文分词的作用:
在说中文分词时,我先想让大家知道他的作用:中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。那么何为分词呢?
什么是中文分词:
将文档(网页可看做是一个文档)看做连续词的集合,中文中词是由两个或者两个以上的汉字组成,并且句子是连续输写的,名子是由标点隔开,分词前首先要将整句割成小的单元,这就是中文分词。
目前分词主要依靠了字典和统计学的的方法。由于索引是按照关键词建索引的,所以分词直接决定了索引词及检索效果。可见分词在很大程序上决定了搜索的结果和效果。
通过字典实现分词
此法给搜索引擎带来了难题,在中文分词中主要有三个难点:交集性歧义,组合型歧义,混合型歧义。还有就是新词的出现。
常用分词方法 :
最大正向匹配法。
通过统计学实现分词
通过字典实现分词解决了大部分的问题,但是由于字典收录数的限制,分词还需要有新词发现的能力,即补充新发现的普遍被采用的流行的各种词汇到字典中,如 元芳你怎么看 春哥 曾哥等。发现新词的方法就是通过统计学来实现的。具体方法小的也不懂啊。所以还要研究和看书。