自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

陈嘉怡的专栏

专注服务器。本人有对本博客的所有原创文章的版权。

  • 博客(2)
  • 收藏
  • 关注

原创 Sphinx之匹配方式

Sphinx添加了相当多的匹配和rank模式,并且将添加更多。一些不同的问题经常被提出,从“我怎样让指定的文档排在第一位”到 “我怎么根据匹配度来评定星级”,实际处理要归结于内在的匹配和排序。匹配方式匹配方式有基础匹配模式和拓展的匹配模式。匹配本质Sphinx 1.10版本中使用的两个最重要的权重因子是:1)经典统计学BM25因子,从80年代开始被大部分的搜索引擎使用,2)

2016-12-14 00:37:14 8903

原创 coreseek之mmseg分词和词库拓展

mmseg分词mmseg分词算法是基于统计模型的,所以算法的规则也是来自对语料库的分析和数学归纳,因为中文字符没有明确的分界,会导致大量的字符分界歧义,而且,中文里面,词和短语也很难界定,因此,算法除了要做统计和数学归纳之外,还要做歧义的解决。在mmseg分词中,有一个叫chunk的概念:chunk,是一句话的分词方式。包括一个词条数组和四个规则。如:研究生命,有“研究/生命”和“

2016-12-14 00:32:39 2732 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除