- 博客(2)
- 收藏
- 关注
原创 Sphinx之匹配方式
Sphinx添加了相当多的匹配和rank模式,并且将添加更多。一些不同的问题经常被提出,从“我怎样让指定的文档排在第一位”到 “我怎么根据匹配度来评定星级”,实际处理要归结于内在的匹配和排序。 匹配方式 匹配方式有基础匹配模式和拓展的匹配模式。 匹配本质 Sphinx 1.10版本中使用的两个最重要的权重因子是: 1)经典统计学BM25因子,从80年代开始被大部分的搜索引擎使用, 2)
2016-12-14 00:37:14 8951
原创 coreseek之mmseg分词和词库拓展
mmseg分词 mmseg分词算法是基于统计模型的,所以算法的规则也是来自对语料库的分析和数学归纳,因为中文字符没有明确的分界,会导致大量的字符分界歧义,而且,中文里面,词和短语也很难界定,因此,算法除了要做统计和数学归纳之外,还要做歧义的解决。 在mmseg分词中,有一个叫chunk的概念: chunk,是一句话的分词方式。包括一个词条数组和四个规则。 如:研究生命,有“研究/生命”和“
2016-12-14 00:32:39 2782 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人