lucene
文章平均质量分 76
华清545
这个作者很懒,什么都没留下…
展开
-
一 认识lucene
搜索是个什么东东呢?大家一看到这个词,应该就会想到,baidu,google这2个当前我们经常用的 。对的,这想法是完全正确的。但是baidu,google是完整的搜索引擎。搜索的确就是像baidu,google类似的东东。但是搜索到底是基于什么技术实现的呢?它是基于全文检索的技术实现。以下图示可能对理解全文检索有帮助以上图片反应了lucene全文检转载 2014-08-09 09:36:01 · 501 阅读 · 0 评论 -
[Lucene高性能] Lucene中分组统计(GroupBy)及去重(Distinct)性能在数量级上提升解决方案
所谓分组统计,就是类似sql里group by的功能。在solr里,这个功能称为faceting。lucene本身不支持分组统计,不过可以使用fieldCache来实现分组统计功能,而且也有很好的性能。solr根据不同的情况,还提供了其他方法(filterCache和UnInvertedField)来实现,这个以后再说。fieldCache是lucene用来排序的缓存。对要用来排序转载 2014-10-20 10:39:32 · 4963 阅读 · 0 评论 -
Lucene sort 排序
排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者通过排序来找到评论数最高或卖的最好的商品,再比如在Iteye里的博客栏里,每天都会以降序的方式,来显示出最新发出的几篇博客,有了排序,我们就能在某些时候很方便快速的得到某些有效信息,所以说排序功能,无处不在 ^_^。转载 2014-10-16 15:32:45 · 3271 阅读 · 0 评论 -
lucene排序---相关度与其他组合排序
原先一直有这个概念,就是在lucene中相关度排序和其他排序是不能组合使用;但是一直怀疑这个观念,我记得是书上看到的(网上也有人这么说),但是有不能确定。理论上来说,lucene是可以做到这样组合排序的;所以我就试一下了;[java] view plaincopypackage com.search5173.lucene.demo转载 2014-10-16 15:27:32 · 3763 阅读 · 0 评论 -
Lucene搜索方法总结
更多lucene信息欢迎查看http://summerbell.iteye.com/category/918591.多字段搜索使用 multifieldqueryparser 可以指定多个搜索字段。query query = multifieldqueryparser.parse(”name*”, new string[] { fieldname, fieldvalue }, anal转载 2014-10-16 15:58:22 · 941 阅读 · 0 评论 -
Lucene 多种搜索
lucene的搜索相当强大,它提供了很多辅助查询类,各自完成一种特殊的查询,也可以相互组合使用,来完成一些复杂的操作. Java代码 public class Test{ Analyzer analyzer = new StandardAnalyzer(); RAMDirectory dir转载 2014-10-16 16:52:42 · 985 阅读 · 0 评论 -
lucene中Field.Index,Field.Store详解
lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED));Field有两个属性可选:存储和索引。通过存储属性你可以控制是否对这个Field进行存储;通过索引属性你可以控制是否对该Field进行索引。事实上对这两个属性的正确组合很重转载 2014-10-15 17:14:49 · 1251 阅读 · 0 评论 -
Lucene 示例
package zwdt.action.web;import java.io.File;import java.io.IOException;import java.util.ArrayList;import java.util.Date;import java.util.List;import net.paoding.analysis.analyzer.PaodingAnalyz原创 2014-10-23 09:27:43 · 1178 阅读 · 1 评论 -
lucene 分词原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们转载 2014-08-10 16:02:10 · 900 阅读 · 1 评论 -
我的第一个 lucene程序
我的第一个 lucenepackage lucene;import java.io.File;import java.io.FileReader;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.do原创 2014-08-09 21:12:23 · 703 阅读 · 0 评论 -
什么事垂直网站和垂直收索
(1)垂直网站:和第一代大而全的水平网站(又称综合性网站)不同,垂直网站注意力集中在某些特定的领域或某种特定的需求,提供有关这个领域或需求的全部深度信息和相关服务,作为互连网的新亮点,垂直网站正引起越来越多人的关注。在越来越多的网络吸引老百姓的注意力时,网民却逐渐走出时髦、好奇的初级阶段,不断在网上寻找着实际、实用和实惠。正因为认识到这一点,赛诺爱在目前开通的5个频道:房频道、缘频道、职频道、P转载 2014-08-09 09:46:47 · 857 阅读 · 0 评论 -
Apache Lucene Tika 文件内容提取工具
Tika入门 Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。 在当前版本中,Tika提供了对如下文件格式的支持: PDF - 通过PdfboxMS-* - 通过POI转载 2014-11-06 11:27:23 · 1531 阅读 · 0 评论