lucene
文章平均质量分 63
mingluoxuan
这个作者很懒,什么都没留下…
展开
-
lucene4.0入门实例
1:以前用3.5的时候,到现在也差不多忘了,重新看了下文档,写个简单的例子 lucene4.0中有很多新的东西,其中Field类主要不能new Field()要通过其子类去实现比如new StringField()等,对分词等参数也有部分变化。 创建索引的代码如下: package com.search.lucene; import java.io.File; ...原创 2012-10-30 10:08:17 · 171 阅读 · 0 评论 -
lucence增量和全量更新设计分析
1:以前做过一次 有一张表记录 数据库变动的情况,然后更加变动进行实时的更新. 2: ---spring quzte定时,jms消息onMessage()时候指定更新索引, public class Main { public static Object lock=new Object();// 更新索引的时候的同步锁 public static boolea...原创 2012-12-19 12:02:18 · 197 阅读 · 0 评论 -
BooleanQuery组合查询2.x版本吧
转载:http://zhxmyself.iteye.com/blog/466066 应用BooleanQuery进行组合查询时,条件之间的关系是由类BooleanClause.Occur控制的,BooleanClause.Occur中提供了三个参数值进行控制,分别是BooleanClause.Occur.MUST BooleanClause.Occur.MUST_NOT Boolea...原创 2012-12-19 11:29:01 · 199 阅读 · 0 评论 -
爬虫-------解决的问题
1:就像菜鸟如何成就大师一样 1: 爬虫 ------- 频率控制 2:爬虫-------- 爬虫数据智能抽取控制 3:爬虫 -------- 增量更新爬虫 4:爬虫 ------- 通用控制 ...原创 2012-11-08 10:19:19 · 463 阅读 · 0 评论 -
定向网站爬虫---初级例子
1:url处理和html解析 package com.xiaoshuo.util; import java.util.ArrayList; import java.util.List; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.h...原创 2012-11-07 17:57:55 · 95 阅读 · 0 评论 -
特定网站爬虫---原理篇
1:http://www.shuoshuo520.com/ 的小说网站爬虫,又定向简单到智能爬取数据的学习路径。 1:爬虫原理。 就是对url连接的搜索: 具体使用广度优先搜索: 访问的路径是 A - B C D E F -H G - I 使用队列保存 ,就是 A 先入队 出对 ,在B C D E F 入队 ,在B C D E出对 H入队 ...原创 2012-11-07 17:43:10 · 187 阅读 · 0 评论 -
solr4.0加入中文分词IKanalry
1:solr4.0加入中文分词: 在IK的自带文档中有: 这里特别的罗嗦几句,在Solr4.0发布以后,官方取消了BaseTokenizerFactory接口,而直接使用Lucene Analyzer标准接口。因此IK分词器2012 FF版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory类。 2:首先在tomcat不是的solr目录下...原创 2012-11-01 13:48:38 · 100 阅读 · 0 评论 -
solr4.0在tomcat6下部署
安装方法:http://wiki.apache.org/solr/SolrTomcat Solr是一个基于Lucene java库的企业级搜索服务器,本文记录了solr的安装过程,版本为最新的4.0。 1) 下载 从solr的官网http://lucene.apache.org/solr/找到最新的版本4.0. 解开下载的apache-solr-4.0...原创 2012-11-01 09:41:53 · 79 阅读 · 0 评论 -
lucene的锁机制--IndexWriter
1:lucene中打开一个IndexWriter后就会把索引改lock住,如果强行在打开一个IndexWriter那么就会抛出: Lock obtain timed out: NativeFSLock@D:\lucene\index\write.lock异常。 2:所以在Lucene中要记得及时关闭IndexWriter。 package com.searchtxt.lucene...原创 2012-10-31 09:40:32 · 255 阅读 · 0 评论 -
lucene4.0索引txt文本
package com.searchtxt.lucene; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileReader; import java.i...原创 2012-10-30 16:44:01 · 169 阅读 · 0 评论 -
luecene排序Sort对象
1:参加lucene in action 5.2 下载地址: 基本介绍: Lucene的默认排序是按照Document的得分进行排序的。当检索结果集中的两个Document的具有相同的得分时,默认按照Document的ID对结果进行排序。 下面研究几种设置/改变检索结果排序的方法。 1、改变Document的boost(激励因子) 改变boost的大小,会导致Documen...原创 2012-12-27 09:58:22 · 125 阅读 · 0 评论