搜索
fxnfk
这个作者很懒,什么都没留下…
展开
-
近义词搜索
“西语”是“西班牙语”的简称,当我搜“西语”时,我希望搜索结果也包含“西班牙语”。 所以我要为分词器,加上一层过滤器,用于处理近义词。 分词的结果用TokenStream表示,一个TokenStream包含一串Token,每个Token表示一个分词,包含词的内容,在句子中的位置等。 近义词过滤器,要实现的是将同义词加入到TokenStream中,并且和原词是相同的位置。原创 2017-03-23 16:14:48 · 1648 阅读 · 0 评论 -
lucene评分
lucene文档:http://lucene.apache.org/core/7_1_0/经典评分算法:Lucene的经典的向量空间模型实现翻译:http://lucene.apache.org/core/7_1_0/core/org/apache/lucene/search/similarities/TFIDFSimilarity.htmlSimilarity的一个实现,用向量空间模型。Exper原创 2017-11-09 18:05:47 · 327 阅读 · 0 评论 -
lucene query
建立索引后,给定一个查询词,可以进行搜索,官网有个建索引和搜索的小demo:Analyzer analyzer = new StandardAnalyzer();// Store the index in memory:Directory directory = new RAMDirectory();// To store an index on disk, use this in原创 2017-11-30 15:34:16 · 327 阅读 · 0 评论 -
lucene index
luke下载:https://github.com/DmitryKey/luke/releases官网给出的一个小demo: http://lucene.apache.org/core/7_1_0/core/overview-summary.html#overview.descriptionAnalyzer analyzer = new StandardAnalyzer();// Store th原创 2017-12-01 16:26:58 · 461 阅读 · 0 评论 -
learning to rank
在淘宝搜索“苹果”出来什么结果?结果都是关于苹果手机的。如果搜索“苹果 水果”,出来的都是关于吃的苹果的。为什么同样是“苹果”,结果是这样呢?我觉得这个就不能完全从向量空间模型,计算query和doc的相似度来排序了,因为如果是这样的准则,相关度应该是差不多的。这就要从别的方面考虑了。比如,建立一个查询词query和文档doc的模型f(query, doc),系统记录了用户历史搜索点击记录,通过...原创 2018-11-16 16:26:04 · 254 阅读 · 0 评论