中文分词技术比较：单字切分 vs 中文分词

最新推荐文章于 2021-05-20 17:35:46 发布

Java2King

最新推荐文章于 2021-05-20 17:35:46 发布

阅读量5.9k

点赞数

分类专栏：搜索引擎文章标签：文档搜索引擎 lucene web google 磁盘

本文链接：https://blog.csdn.net/Java2King/article/details/5378708

版权

在全文信息检索系统中，创建倒排索引时，选择单字切分或中文分词是关键。单字切分提高召回率但降低准确率，中文分词则相反。Google、百度等Web搜索引擎采用中文分词以提高准确率，同时处理大量数据时，中文分词有助于提高系统吞吐量。二元切分作为折衷方案，介于两者之间。对于不同场景，如图书信息检索系统，可能更注重召回率。改进的中文分词策略可能提供更好的平衡。

摘要由CSDN通过智能技术生成

全文信息检索系统中，创建倒排索引时应当使用什么分词方式一直是众说纷纭，毫无定论。

具我所知，已有某某 paper “研究指出”采用二元切分的方式构建索引是“最好的”；也看到过园子里的一位兄弟认为单字切分最准确（sorry，忘记具体出处）；当然，将某个基于词典或者共现频率的中文分词组件包装一下加入自己的项目中也是非常流行的做法。

既然存在这么多的看法与做法，难免会让人生出一较高下或者明辨真伪的决心；

不过作为一个成熟而又理智的热血青年，偶认为这种决心并无必要，原因在于信息检索系统的评价标准是多样化的——召回率、准确率与查询效率三个指标相互矛盾，只有取舍、不能调和；人们关心的指标不尽相同自然会提出不同的观点、奉行不同的做法。假设你在做一个Web搜索引擎，首先要保证的一定是查询效率，因为它所要处理的海量数据与并发请求是一种天然的障碍；其次，在召回率与准确率中你会更倾向于后者，因为最终用户与Web搜索引擎的关系恰如负心男人与痴情女人的关系——用户希望尽快得到最满意的结果，并在下一个瞬间把你抛弃，直到他们再次需要你为止（当然，如果你提供了代号为 Good Morni 的竞价排名服务，为了不致客户投诉，最好还是关心一下召回率。所以说，广大小白和一小撮VIP之间的利益冲突是深刻、长远以及不可调和的。。。）；同时，对于一个传统的图书信息检索系统，情况会大不相同——书籍与文章有良好的关键字索引，包括标题、作者、摘要、正文、收录时间等定义明确的结构化数据，文档集合相对稳定并且规模相对较小——这一切都使你的决策更倾向于提高系统的召回率，原因很简单，你有这么做的可能性或者说是先天优势。

既然