中文分词的那些事-开博第一篇｛新手｝

最新推荐文章于 2020-09-02 11:20:57 发布

jiaxingseoer

最新推荐文章于 2020-09-02 11:20:57 发布

阅读量366

点赞数

分类专栏：搜索引擎原理文章标签：分词中文分词搜索引擎字典统计学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011896895/article/details/10678219

版权

搜索引擎原理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

最近在看走进搜索引擎这本书，大家都说这是小学生的书，不过我看未必。也许他们的意思是小学生都能看懂的书吧。呵呵。今天看到了中搜索引擎体系结构中的分析系统中的中文分词一节，感觉有东西要记录下所以就开了这个博客。

中文分词的作用：

在说中文分词时，我先想让大家知道他的作用：中文分词对于搜索引擎来说，最重要的并不是找到所有结果，因为在上百亿的网页中找到所有结果没有太多的意义，没有人能看得完，最重要的是把最相关的结果排在最前面，这也称为相关度排序。中文分词的准确与否，常常直接影响到对搜索结果的相关度排序。从定性分析来说，搜索引擎的分词算法不同，词库的不同都会影响页面的返回结果。那么何为分词呢？

什么是中文分词：

将文档（网页可看做是一个文档）看做连续词的集合，中文中词是由两个或者两个以上的汉字组成，并且句子是连续输写的，名子是由标点隔开，分词前首先要将整句割成小的单元，这就是中文分词。

目前分词主要依靠了字典和统计学的的方法。由于索引是按照关键词建索引的，所以分词直接决定了索引词及检索效果。可见分词在很大程序上决定了搜索的结果和效果。

通过字典实现分词

此法给搜索引擎带来了难题，在中文分词中主要有三个难点：交集性歧义，组合型歧义，混合型歧义。还有就是新词的出现。

常用分词方法：

最大正向匹配法。

通过统计学实现分词

通过字典实现分词解决了大部分的问题，但是由于字典收录数的限制，分词还需要有新词发现的能力，即补充新发现的普遍被采用的流行的各种词汇到字典中，如元芳你怎么看春哥曾哥等。发现新词的方法就是通过统计学来实现的。具体方法小的也不懂啊。所以还要研究和看书。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。