- 博客(4)
- 资源 (6)
- 收藏
- 关注
原创 Solr IK中文分词器bug--多个IKTokenizer实例使用DefaultConfig单例bug
由于IKTokenizer内部使用DefaultConfig来保存配置信息,而DefaultConfig设计成单例就导致了多个不同的IKTokenizer实例只能拥有唯一的COnfiguration配置。修复方法:把获取单例的地方改为new出来就好了IK版本:IK Analyer 2012-FF Hotfix 1 源码,IK Analyzer 2012FF_hf1_sour
2013-09-26 20:53:46 1277
原创 java如何过滤无效的utf-8字符?
直接上代码了:public static String stripNonCharCodepoints(String input) { StringBuilder retval = new StringBuilder(); char ch; for (int i = 0; i input.length(
2013-09-26 11:15:22 4530 1
原创 Java自动装箱和自动拆箱的陷阱
这里有一段测试代码,猜猜执行结果是什么吧?public static void main(){ Integer a = 1; Integer b = 2; Integer c = 3; Integer d = 3; Integer e = 321; Integer f = 321; Long g = 3L; System.out.println(c == d);
2013-09-18 15:51:59 887
原创 自行实现Solr重复分词过滤器
最近在对搜索质量做优化,想解决一些文章通过重复关键词的堆砌而导致搜索该关键词排序很高的问题。比如搜索“游戏”,结果一篇叫做“游戏游戏游戏游戏游戏游戏游戏游戏”的文章始终排在第一位。体验了一下百度贴吧,从高亮结果显示可以看出贴吧是有对这种堆砌重复关键词的情况做处理的。应该是忽略了连续重复出现的关键词。下图是贴吧搜索(相关度排序)“天天”的结果页面:lucene/solr提供了
2013-09-13 18:07:56 2213
OpenGL程序用的库文件.dll .h .lib文件
2009-12-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人