中文搜索
风云来
这个作者很懒,什么都没留下…
展开
-
coreseek之mmseg分词和词库拓展
mmseg分词mmseg分词算法是基于统计模型的,所以算法的规则也是来自对语料库的分析和数学归纳,因为中文字符没有明确的分界,会导致大量的字符分界歧义,而且,中文里面,词和短语也很难界定,因此,算法除了要做统计和数学归纳之外,还要做歧义的解决。在mmseg分词中,有一个叫chunk的概念:chunk,是一句话的分词方式。包括一个词条数组和四个规则。如:研究生命,有“研究/生命”和“原创 2016-12-14 00:32:39 · 2786 阅读 · 1 评论 -
Sphinx之匹配方式
Sphinx添加了相当多的匹配和rank模式,并且将添加更多。一些不同的问题经常被提出,从“我怎样让指定的文档排在第一位”到 “我怎么根据匹配度来评定星级”,实际处理要归结于内在的匹配和排序。匹配方式匹配方式有基础匹配模式和拓展的匹配模式。匹配本质Sphinx 1.10版本中使用的两个最重要的权重因子是:1)经典统计学BM25因子,从80年代开始被大部分的搜索引擎使用,2)原创 2016-12-14 00:37:14 · 8955 阅读 · 0 评论