Apache Lucene Tika 文件内容提取工具

Tika入门   Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。   在当前版本中,T...

2014-11-06 11:27:23

阅读数:1146

评论数:0

Lucene 示例

package zwdt.action.web; import java.io.File; import java.io.IOException; import java.util.ArrayList; import java.util.Date; import java.util.List; ...

2014-10-23 09:27:43

阅读数:916

评论数:2

[Lucene高性能] Lucene中分组统计(GroupBy)及去重(Distinct)性能在数量级上提升解决方案

所谓分组统计,就是类似sql里group by的功能。在solr里,这个功能称为faceting。lucene本身不支持分组统计,不过可以使用fieldCache来实现分组统计功能,而且也有很好的性能。solr根据不同的情况,还提供了其他方法(filterCache和UnInvertedField...

2014-10-20 10:39:32

阅读数:3230

评论数:0

Lucene 多种搜索

lucene的搜索相当强大,它提供了很多辅助查询类,各自完成一种特殊的查询,也可以相互组合使用,来完成一些复杂的操作.     Java代码   public class Test{              Analyzer analyzer = new ...

2014-10-16 16:52:42

阅读数:791

评论数:0

Lucene搜索方法总结

更多lucene信息欢迎查看http://summerbell.iteye.com/category/91859 1.多字段搜索 使用 multifieldqueryparser 可以指定多个搜索字段。 query query = multifieldqueryparser.parse(”n...

2014-10-16 15:58:22

阅读数:761

评论数:0

Lucene sort 排序

排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者通过排序来找到评论数最高或卖的最好的商品,再比如在Iteye里的博客栏里,每天都会以降序的方式,来显示出最新发出的几篇博...

2014-10-16 15:32:45

阅读数:2215

评论数:0

lucene排序---相关度与其他组合排序

原先一直有这个概念,就是在lucene中相关度排序和其他排序是不能组合使用;但是一直怀疑这个观念,我记得是书上看到的(网上也有人这么说),但是有不能确定。 理论上来说,lucene是可以做到这样组合排序的;所以我就试一下了; [java] view plainc...

2014-10-16 15:27:32

阅读数:3064

评论数:0

lucene中Field.Index,Field.Store详解

lucene在doc.add(new Field("content",curArt.getContent(),Field.Store.NO,Field.Index.TOKENIZED)); Field有两个属性可选:存储和索引。 通过存储属性你可以控制是否对...

2014-10-15 17:14:49

阅读数:940

评论数:0

lucene 分词原理

Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下:  0)设有两篇文章1和2  文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.  文章2的内容为:He once l...

2014-08-10 16:02:10

阅读数:708

评论数:1

我的第一个 lucene程序

我的第一个 lucene package lucene; import java.io.File; import java.io.FileReader; import java.io.IOException; import org.apache.lucene.analysis.sta...

2014-08-09 21:12:23

阅读数:505

评论数:0

什么事垂直网站和垂直收索

(1)垂直网站: 和第一代大而全的水平网站(又称综合性网站)不同,垂直网站注意力集中在某些特定的领域或某种特定的需求,提供有关这个领域或需求的全部深度信息和相关服务,作为互连网的新亮点,垂直网站正引起越来越多人的关注。在越来越多的网络吸引老百姓的注意力时,网民却逐渐走出时髦、好奇的初级阶段,不断在...

2014-08-09 09:46:47

阅读数:633

评论数:0

一 认识lucene

搜索是个什么东东呢?大家一看到这个词,应该就会想到,baidu,google这2个当前我们经常用的 。对的,这想法是完全正确的。但是baidu,google是完整的搜索引擎。 搜索的确就是像baidu,google类似的东东。但是搜索到底是基于什么技术实现的呢?它是基于全文检索的技术实现。以...

2014-08-09 09:36:01

阅读数:379

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭