![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
搜索
文章平均质量分 76
raoxunrong
劳动最光荣
展开
-
Lecene中 ConstantScoreRangeQuery 与 RangeQuery 的区别
最近又把Lucene In Action 前面的章节读了一下,跑了跑几个测试用例。因为编写这本书的时候是Lucene 1.4版的,而我现在所用的是2.2版的,其中必然又很多method 或者 class 有改动。我认为在1.9版本中添加的新class(貌似1.9版) ConstantScoreRangeQuery 是很有帮助的。public void testRangeQuery() thro原创 2008-03-05 11:06:00 · 1004 阅读 · 0 评论 -
PDFBox提取文本
这两天在写自己的桌面搜索程序,陆续把自己所碰到的一些问题写一下,防止以后遗忘,再犯同样的错误。 现在先说一下PDFBox对文本的提取,我最开始的时候对于文本的提取是按照下面的方式来写的: COSDocument cosDoc = null; FileInputStream is = new FileInputStream(file); PDFParser parser = ne原创 2008-03-22 00:19:00 · 8215 阅读 · 3 评论 -
Solution of ArrayIndexOutOfBoundsException while extractor Microsoft Format Files with POI
这两天在用POI提取 Microsoft 格式文档的内容的时候莫名其妙的遇到了一个问题,困扰了我3天: 我的POI版本为:poi-3.0.2-FINAL-20080204.jar;poi-contrib-3.0.2-FINAL-20080204.jar;poi-scratchpad-3.0.2-FINAL-20080204.jar;开发环境为:jdk1.6; IDE为Ecl原创 2008-03-26 01:04:00 · 2722 阅读 · 0 评论 -
搜索相关术语
转自:http://banditjava.iteye.com/blog/253184 最近monner兄共享了一篇搜索引擎资料《原理技术与系统》,很有收获啊。下面我将其中的术语部分列出来,大家一起学习一下。 附录. 术语 B: 半结构化数据(semi-structured data),和普通纯文本相比,Web上的网页数据具有一定的结构性,表现在其中的HTML标注上;但和具有严格转载 2011-11-21 23:38:15 · 1481 阅读 · 0 评论