![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
中文搜索
风云来
这个作者很懒,什么都没留下…
展开
-
coreseek之mmseg分词和词库拓展
mmseg分词 mmseg分词算法是基于统计模型的,所以算法的规则也是来自对语料库的分析和数学归纳,因为中文字符没有明确的分界,会导致大量的字符分界歧义,而且,中文里面,词和短语也很难界定,因此,算法除了要做统计和数学归纳之外,还要做歧义的解决。 在mmseg分词中,有一个叫chunk的概念: chunk,是一句话的分词方式。包括一个词条数组和四个规则。 如:研究生命,有“研究/生命”和“原创 2016-12-14 00:32:39 · 2742 阅读 · 1 评论 -
Sphinx之匹配方式
Sphinx添加了相当多的匹配和rank模式,并且将添加更多。一些不同的问题经常被提出,从“我怎样让指定的文档排在第一位”到 “我怎么根据匹配度来评定星级”,实际处理要归结于内在的匹配和排序。 匹配方式 匹配方式有基础匹配模式和拓展的匹配模式。 匹配本质 Sphinx 1.10版本中使用的两个最重要的权重因子是: 1)经典统计学BM25因子,从80年代开始被大部分的搜索引擎使用, 2)原创 2016-12-14 00:37:14 · 8919 阅读 · 0 评论