中文分词的那些事-开博第一篇{新手}

最近在看走进搜索引擎这本书,大家都说这是小学生的书,不过我看未必。也许他们的意思是小学生都能看懂的书吧。呵呵 。今天看到了中搜索引擎体系结构中的分析系统中的中文分词一节,感觉有东西要记录下所以就开了这个博客。

中文分词的作用:

在说中文分词时,我先想让大家知道他的作用:中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。那么何为分词呢?

什么是中文分词:

将文档(网页可看做是一个文档)看做连续词的集合,中文中词是由两个或者两个以上的汉字组成,并且句子是连续输写的,名子是由标点隔开,分词前首先要将整句割成小的单元,这就是中文分词。

目前分词主要依靠了字典和统计学的的方法。由于索引是按照关键词建索引的,所以分词直接决定了索引词及检索效果。可见分词在很大程序上决定了搜索的结果和效果。

通过字典实现分词

此法给搜索引擎带来了难题,在中文分词中主要有三个难点:交集性歧义,组合型歧义,混合型歧义。还有就是新词的出现。

常用分词方法 :

最大正向匹配法。

通过统计学实现分词

通过字典实现分词解决了大部分的问题,但是由于字典收录数的限制,分词还需要有新词发现的能力,即补充新发现的普遍被采用的流行的各种词汇到字典中,如  元芳你怎么看 春哥 曾哥等。发现新词的方法就是通过统计学来实现的。具体方法小的也不懂啊。所以还要研究和看书。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值