solr
flysharkym
这个作者很懒,什么都没留下…
展开
-
Apache Solr DIH的Entity配置
Apache Solr DIH的Entity配置2011-04-15query是获取全部数据的SQLdeltaImportQuery是获取增量数据时使用的SQLdeltaQuery是获取pk的SQLparentDeltaQuery是获取父Entity的pk的SQL Full Import工作原理:执行本Entity的Query,获取所有数据;针对每个转载 2011-11-30 09:48:21 · 1649 阅读 · 0 评论 -
自行实现Solr重复分词过滤器
最近在对搜索质量做优化,想解决一些文章通过重复关键词的堆砌而导致搜索该关键词排序很高的问题。比如搜索“游戏”,结果一篇叫做“游戏游戏游戏游戏游戏游戏游戏游戏”的文章始终排在第一位。体验了一下百度贴吧,从高亮结果显示可以看出贴吧是有对这种堆砌重复关键词的情况做处理的。应该是忽略了连续重复出现的关键词。下图是贴吧搜索(相关度排序)“天天”的结果页面:lucene/solr提供了原创 2013-09-13 18:07:56 · 2209 阅读 · 0 评论 -
Solr IK中文分词器bug--多个IKTokenizer实例使用DefaultConfig单例bug
由于IKTokenizer内部使用DefaultConfig来保存配置信息,而DefaultConfig设计成单例就导致了多个不同的IKTokenizer实例只能拥有唯一的COnfiguration配置。修复方法:把获取单例的地方改为new出来就好了IK版本:IK Analyer 2012-FF Hotfix 1 源码,IK Analyzer 2012FF_hf1_sour原创 2013-09-26 20:53:46 · 1276 阅读 · 0 评论 -
Solr AutoSoftCommit
什么是SoftCommit?请戳Solr Guide:Near Real Time Searching(NRT) https://cwiki.apache.org/confluence/display/solr/Near+Real+Time+Searching 。里面讲了AutoCommit和AutoSoftCommit如何进行配置。配置建议:A common configuration原创 2013-11-04 21:16:48 · 2978 阅读 · 0 评论 -
Lucene/solr的评分公式
1. lucene 评分公式(评分公式中,对大多数因子的控制和实现都是通过Similarity抽象类的子类完成的。lucene默认使用DefaultSimilarity类。如果要详细了解的话可以直接看lucene源代码Similarity和DefaultSimilarity类。)Lucene Scoring 评分机制:http://blog.chenlb.com/2原创 2012-08-24 11:17:43 · 3225 阅读 · 0 评论