- 博客(12)
- 资源 (9)
- 收藏
- 关注
转载 Lucene索引库的简单优化
根据实际情况对索引库进行优化,可以提升创建索引和搜索的速度。 1、合并索引库片段文件 IndexWriter的optimize()方法已经过时,因为这个方法的效率很低。合并文件主要是使用IndexWriter的setMergeFactor(int)方法,但是在Lucene3.6版本中,该方法已过时,直接使用LogMergePolicy.setMergeFactor(int)方法代替。 当set
2016-04-06 15:04:28 592
转载 关于Lucene以及索引和搜索的流程
Lucene的普及和成功的背后是因为它的简单。 因此,你不需要深入理解Lucene的信息索引和检索工作方面的知识就可以开始使用。 Lucene提供了简单但是强大的核心API去实现全文索引和检索,你只需要掌握少数的类就能将Lucene整合到应用中。 刚接触Lucene的人可能会误认为Lucene是一个文件搜索工具、网络爬虫、或者网页搜索引擎。实际上Lucene是一个软件库,而不是一个全功能的搜索
2016-04-06 15:02:23 2896
转载 【Eclipse 01】MyEclipse项目中的构建路径和类路径lib的问题
完成之后在使用原先的MyEclipse项目时,几个项目出现了错误,我一看是由于所需要的jar包不存在造成的,仔细一看,同学的挺多的项目都是用构建路径的方式将jar包放入到MyEclipse项目中的,而且有些项目都是Web项目,对于一个Web项目来说,按照标准的方式都是将所需要的jar包放在lib文件夹下的,而有时做普通的java项目的时候,都习惯于用构建路径的方式将所需要的jar导入进来。对于用构建
2016-04-06 14:18:47 5880
转载 lucene的中文分词器
lucene的中文分词器到现在还没有好的解决办法。下边介绍了两个lucene自己提供的分词器和一个javaeye上的网友实现的分词器。关于各个分词器的不同见代码中的print信息。直接运行得到console的输出结果更容易对比不同。package analyzer;import java.io.Reader;import java.io.StringReader;import org.apache
2016-04-06 14:00:25 757
转载 lucene的丰富的各种查询(二)
lucene的查询用法包括了RangeQuery、prefixQuery、phraseQuery、wildcastQuery、fuzzyQuery 被索引查询的文件,按照需求自己构造即可。package search;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import
2016-04-06 13:59:14 419
原创 lucene的丰富的各种查询(一)
lucene支持十分丰富的查询,这里列写其中一些比较常用的查询的用法。 term查询 queryParser查询 booleanQuery查询package search;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.index.Term;import org.ap
2016-04-06 13:57:11 468
原创 比较lucene各种英文分析器Analyzer
比较常用的几种英文分析器,他们之间的区别见程序中的注释。 SimpleAnalyzer StandardAnalyzer WhitespaceAnalyzer StopAnalyzerpackage analyzer;import java.io.Reader;import java.io.StringReader;import org.apache.lucene.analysis.Ana
2016-04-06 13:55:55 711
转载 lucene建立索引时候的用到的一些文档和目录操作
在前边的文章中多是用的添加一个document,这里介绍一下其它的文档操作 1,按照编号删除public void deleteDoc(String indexDir) throws Exception{ IndexReader reader = IndexReader.open(indexDir); reader.delete(1); reader
2016-04-06 13:54:41 434
转载 lucene 索引非txt文档 (pdf word rtf html xml)
搜索要首先要索引,索引的话最简单的方式是索引txt文件,上文已经介绍了。这里介绍一下一些其它格式的文档的索引,例如ms word ,pdf ,rtf等。 索引方法:就是先把各种文档先转化成纯文本再索引,所以关键在转换上。幸好java世界中有太多的开源工程,很多都可以拿来直接使用。下边分别介绍一下: 写在所有之前:下边所有介绍中的is参数都是inputStream,就是被索引的文件。 word文
2016-04-06 13:51:50 790
转载 apache lucene 的核心类
下边介绍一下lucene的核心类:(参考lucene in action) 主要有两部分组成,核心索引类和核心搜索类,顾名思意,就是用来建立索引和用来搜索的类。IndexWriter:可以对索引进行写操作,但不能读取或者搜索。是唯一能写索引的类。**Directory:**Directory类代表一个Lucene索引的位置。它是一个抽象类,允许它的子类(其中的两个包含在Lucene中)在合适时存储
2016-04-06 13:49:17 442
转载 apache lucene 一个最简单的实例
就像每个程序都有一个Hello World来让人体验它一样,lucene也可以很简单的提供一个实例。如下(来自lucene in action的例子)有两个类组成: 一个是建立索引:package my;import java.io.File;import java.io.FileReader;import java.io.IOException;import java.ut
2016-04-06 13:47:14 636
转载 apache lucene介绍
什么是lucene Apache Lucene是一个开放源程序的搜寻器引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。 Lucene是apache软件基金会项
2016-04-06 13:43:53 514
ourbestModel_highscore3500
2019-04-14
停用词表stopwords
2017-08-15
文本分析--停用词集合(结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等)
2017-04-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人