搜索技术
ttitfly
这个作者很懒,什么都没留下…
展开
-
lucene2.0
Field.Text(java.lang.String, java.io.Reader)用new Field(java.lang.String, java.io.Reader)代替Field.Keyword(java.lang.String, java.lang.String)用Field.Keyword(java.lang.String, java.lang.String)代替...2007-05-21 14:27:18 · 115 阅读 · 0 评论 -
通过addIndexes将内存中的索引加入到磁盘索引
[code="java"]package com.lucene;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.Document;import org.apache.lucene.document.Field;import org.ap...2008-09-20 15:33:53 · 347 阅读 · 0 评论 -
lucene高亮demo
java 代码 package com.feedsky.lucene; import java.io.StringReader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; ...2007-07-31 17:19:34 · 66 阅读 · 0 评论 -
提取关键词及相应的频率,Field.Store.NO的数据获取
1.提取关键词及相应的频率java 代码 RAMDirectory ramDir = new RAMDirectory(); IndexWriter ramWriter = null; IndexReader ramReader = null; try { ra...2007-07-11 11:53:10 · 253 阅读 · 0 评论 -
数据挖掘关于分类方面
1.提供自动学习数据,对这些数据进行索引2。从索引里提取一个2维矩阵列表,写入一个文本文件里。关键性代码如下:java 代码 import java.io.File; import java.util.HashMap; import org.apache.log4j.Logger; import org.apache.luce...2007-07-05 14:36:06 · 87 阅读 · 0 评论 -
提取关键词,并排序
java 代码 //提取内容关键字! 对关键字重要性做排序 筛选! TermFreqVector contentFreqVector = reader.getTermFreqVector(docId, "itemContent"); if(contentFreqVector != null){ ...2007-06-29 11:10:09 · 382 阅读 · 0 评论 -
lucene索引参数优化
1。maxBufferedDocs 缓存在内存中的document数目,超过他以后会写入到磁盘2. maxFieldLength 一个Field中最大Term数目,超过部分忽略,不会index到field中,所以自然也就搜索不到3.maxMergeDocs 一般不用设置,,默认值: Integer.MAX_VALUE4.mergeFactor ...2007-06-28 15:52:36 · 131 阅读 · 0 评论 -
lucene支持内存索引
lucene支持内存索引:这样的搜索比基于文件的I/O有数量级的速度提升。http://www.onjava.com/lpt/a/3273,而尽可能减少IndexSearcher的创建和对搜索结果的前台的缓存也是必要的。Lucene面向全文检索的优化在于首次索引检索后,并不把所有的记录(Document)具体内容读取出来,而起只将所有结果中匹配度最高的头100条结果(TopDocs)的ID放到...2007-06-28 11:24:32 · 600 阅读 · 0 评论 -
关于lucene2.0的创建、检索和删除功能的完整实现
转载: http://blog.csdn.net/xiaodaoxiaodao/archive/2006/09/10/1203959.aspx<o:p></o:p><o:p></o:p>关于lucene2.0的创建、检索和删除功能的完整实现<o:p></o:p><o:p> </o:p&am2007-06-28 11:07:04 · 64 阅读 · 0 评论 -
Lucene应用的一点体会
Lucene应用(我用的是Lucene2.1.0,有些观点有可能也不太正确)1.多线程索引,共享同一个IndexWriter对象这种方式效率很慢,主要原因是因为:java 代码 public void addDocument(Document doc, Analyzer analyzer) throws IOException { SegmentInfo n...2007-06-11 11:15:05 · 95 阅读 · 0 评论 -
通过updateDocument更新索引
[code="java"]package com.lucene;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.Document;import org.apache.lucene...2008-09-20 15:57:30 · 613 阅读 · 0 评论