lucene
bob007
这个作者很懒,什么都没留下…
展开
-
lucene 解析文档
DocumentHandler接口 处理InputStream对象 生成一个lucene的document的对象 SAX或digest从xml中提取文本信息 用PDFBox从PDF中提取文本信息 使用Jtity从html中提取文本信息 使用NekoHTML从html中提取文本信息 使用POI和textmining提取word中的文本信息 使用javax.swing.text.r原创 2012-08-21 20:45:41 · 463 阅读 · 0 评论 -
lucene 高级搜索
对搜索结果进行排序 search(Query,sort) 通过相关性排序 Sort.RELEVANCE 按照索引顺序排序 Sort.INDEXORDER 通过某个域进行排序 new Sort("category") 以相反顺序排序 new Sort("pubmonth", true) 根据多个域进行排序 SortField 跨度查询 PhrasePrefi原创 2012-08-20 19:05:40 · 587 阅读 · 0 评论 -
solr 相关资料地址
solr教程 http://wenku.baidu.com/view/0605a776a417866fb84a8e29.html java调用solr http://www.cnblogs.com/powerxu/archive/2012/05/25/2518709.html http://blog.csdn.net/lisong526/article/details/7494683原创 2012-10-13 23:40:59 · 395 阅读 · 0 评论 -
Heritrix配置
转自http://yourlei.blog.sohu.com/111046417.html 自己上班搞了2年多的蜘蛛和采集,只是一直是使用自己的程序,今天抽时间想看看其他蜘蛛的情况,于是下载了heritrix-1.14.2。搜索了一下相关的安装介绍。基本步骤如下: (1)解压下载的heritrix-1.14.2.zip的压缩包,如将其放在E:\datasource\heritrix转载 2013-05-27 00:20:32 · 606 阅读 · 0 评论