Solr IK中文分词器bug--多个IKTokenizer实例使用DefaultConfig单例bug

由于IKTokenizer内部使用DefaultConfig来保存配置信息,而DefaultConfig设计成单例就导致了多个不同的IKTokenizer实例只能拥有唯一的COnfiguration配置。 修复方法:把获取单例的地方改为new出来就好了 IK版本:IK Analyer 20...

2013-09-26 20:53:46

阅读数 909

评论数 0

java如何过滤无效的utf-8字符?

直接上代码了: public static String stripNonCharCodepoints(String input) {           StringBuilder retval = new StringBuilder();           char ch;    ...

2013-09-26 11:15:22

阅读数 2855

评论数 1

Java自动装箱和自动拆箱的陷阱

这里有一段测试代码,猜猜执行结果是什么吧? public static void main(){ Integer a = 1; Integer b = 2; Integer c = 3; Integer d = 3; Integer e = 321; Integer f = 3...

2013-09-18 15:51:59

阅读数 706

评论数 0

自行实现Solr重复分词过滤器

最近在对搜索质量做优化,想解决一些文章通过重复关键词的堆砌而导致搜索该关键词排序很高的问题。比如搜索“游戏”,结果一篇叫做“游戏游戏游戏游戏游戏游戏游戏游戏”的文章始终排在第一位。 体验了一下百度贴吧,从高亮结果显示可以看出贴吧是有对这种堆砌重复关键词的情况做处理的。应该是忽略了连续重复出现的关键...

2013-09-13 18:07:56

阅读数 1757

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭