2016年12月_关注我：程序猿之塞伯坦

原创 16、遍历所有关键字的api方式

之前的一些讲述中，我们介绍了查询索引的功能，但一般都是通过域和关键字进行的查询，那如果我们不知道域或想要查询出所有的关键字怎么办呢，下面我就给出两个解决方案，代码很简单通过指定域方式获取该域中所有的关键字//遍历指定域中的所有关键字的方式@Testpublic void searchIndex() throws Exception { //打开索引库 //指定索引库存放的位置...

2016-12-28 11:59:15 1118

其实在第五章节里已经有介绍过下面的分析器了，只是没有做例子，今天将下面没有做过例子分析器进行一个例子说明paoding：庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0，且最新提交的代码在 2008-06-03，在svn中最新也是2010年提交，已经过时，不予考虑。mmseg4j：最新版已从 https://code.goog...

2016-12-19 21:15:58 1856

转载 14、Analyzer之TokenFilter

import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenFilter;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.core.WhitespaceAnalyzer;imp...

2016-12-19 21:06:40 437

原创 13、自定义Analyzer实现字长过滤

import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.Tokenizer;import org.apache.lucene.analysis.core.WhitespaceTokenizer;impo...

2016-12-16 11:04:38 580

原创 12、自定义Analyzer实现扩展停用词

自定义Analyzer实现扩展停用词继承自Analyzer并覆写createComponents(String)方法维护自己的停用词词典重写TokenStreamComponents，选择合适的过滤策略import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.CharArraySet;import ...

2016-12-16 11:03:26 857

原创 11、相关度排序

1.1 什么是词的权重？通过索引部分的学习明确索引的最小单位是一个Term(索引词典中的一个词)，搜索也是要从Term中搜索，再根据Term找到文档，Term对文档的重要性称为权重，影响Term权重有两个因素：l Term Frequency (tf)：指此Term在此文档中出现了多少次。tf越大说明越重要。词(Term)在文档中出现的次数越多，说明此词(Term)对该文档越重要，...

2016-12-15 15:45:20 954

原创 10、索引库的查询四之：Lucene的高级搜索技术

Lucene的高级搜索技术首先要说的就是 SpanTermQuery ，他和TermQuery用法很相似，唯一区别就是SapnTermQuery可以得到Term的span跨度信息，用法如下：@Test public void testSpanTermQuery() throws Exception{ Directory directory = FSDirectory.op...

2016-12-15 15:40:44 2252

原创 9、索引库的查询三之：Lucene的多样化查询

1.4 Lucene的多样化查询在指定的项范围内搜索-TermRangeQuery类通过字符串搜索-PrefixQuery类组合查询-BooleanQuery类通过短语搜索-PhraseQuery类通配符查询-WildcardQuery类搜索类似项-FuzzyQuery类不匹配文档-MatchNoDocsQuery类解析查询表达式-QueryParser类多短语查询-MultiPhraseQ...

2016-12-15 15:37:12 887

原创 8、索引库的查询二之：数值类型索引查询

IntPoint查询整型的查询方式：这种查询的方式，是将设置域中的值表明为整型，通过代码进行分析说明创建整形索引Document document = new Document();Field intPoint = new IntPoint("age", 15);document.add(intPoint);域名为 age 值为15查询的有以下几种方式：1、匹配精确//整型精确数值查询这里要...

2016-12-15 15:31:10 615

原创 7、索引库的查询一之：简单查询

1.1 TermQuery只需要指定要搜索的域和要搜索的关键词就可以搜索。//使用TermQuery查询@Testpublic void testTermQuery() throws Exception { //以读的方式打开索引库 Directory directory = FSDirectory.open(Paths.get("D:\\LucentTest\\lucene...

2016-12-15 15:24:04 432

原创 6、索引库的维护

1.1.1 实现步骤第一步：创建一个IndexWriter对象打开索引库第二步：创建一个Document对象。向document中添加域。第三步：把document写入索引库。第四步：关闭索引库。1.1.2 代码实现// 添加文档@Testpublic void addDocument() throws Exception {// 打开索引库// 指定索引库存放的位置Director...

2016-12-13 16:12:57 603

原创 5、Analyzer分析器

1.1Analyzer使用时机1.1.1 索引时使用Analyzer 输入关键字进行搜索，当需要让该关键字与文档域内容所包含的词进行匹配时需要对文档域内容进行分析，需要经过Analyzer分析器处理生成语汇单元（Token）。分析器分析的对象是文档中的Field域。当Field的属性tokenized（是否分词）为true时会对Field值进行分析，如下图：对于一些Fiel...

2016-12-13 15:37:10 4504

原创 4、Lucene 入门程序及api 的说明

1.1 需求实现一个资源管理器的搜索功能，通过关键字搜索，凡是文件名或文件内容包括关键字的文件都要找出来。注意：该入门程序只对文本文件(.txt)搜索。 1.2 开发环境 Jdk：1.7.0_72以上的版本 Lucene包：lucene-core-4.10.3.jarlucene-analyzers-common-4.10.3.jarlucene-queryparser-4.10.3.jar其它：...

2016-12-13 15:31:13 2464

原创 5、webService CXF的应用3 原始用法

第一步：下载CXF：http://www.apache.org/dyn/closer.lua/cxf/3.1.8/apache-cxf-3.1.8.zip 。解压后，新建一个Java项目，导入cxf中lib文件夹的所有jar包。第二步：编写接口CalculatorService.java，这个接口就是提供web服务的那个接口啦，里面的方法都是提供给人家调用滴。package com.webSer...

2016-12-13 15:27:13 536

原创 4、webService CXF的应用2 Spring的配置方法

其实配置CXF方式挺多，这一章节，重点是通过tomcat启动时加载WebService CXF 的方式。好，下面我们通过具体的代码来实现，我这里用的是maven项目，首先pom.xml 的基础jar的引用 <dependencies> <dependency> <groupId>org.springframework...

2016-12-13 15:25:11 400

原创 3、webService CXF的应用1 tomcat的配置方法

其实配置CXF方式挺多，这一章节，重点是通过tomcat启动时加载WebService CXF 的方式。好，下面我们通过具体的代码来实现，我这里用的是maven项目，首先pom.xml 的基础jar的引用 <dependencies> <dependency> <groupId>org.springframework</group...

2016-12-13 15:22:09 606

原创 2、webService的简单应用

webService的具体实现其实是挺多的，相对也比较简单，就是将用户所定义的接口与实现类通过webService的方式开放到url访问，好，下面我们面简单的对webService做一个简单的交互。第一步新建一个webservice interface（注意加入注解包）package com.web;import javax.jws.WebService;@WebServicepubl...

2016-12-13 15:17:30 401

原创 1、Web Services 简介

Web Services 可使您的应用程序成为 Web 应用程序。Web Services 通过 Web 进行发布、查找和使用。您应当具备的基础知识在继续学习之前，您需要对下面的知识有基本的了解：HTMLXML如果您希望首先学习这些项目，请在我们的首页访问这些教程。什么是Web Services？Web Services 是应用程序组件Web Services 使用开放协议进行通信Web Serv...

2016-12-13 15:16:27 559

原创 3、Lucene实现全文检索的流程

1.1 案例描述我们以一个案例来研究全文检索系统架构：实现一个文件的搜索功能，通过关键字搜索文件，凡是文件名或文件内容包括关键字的文件都需要找出来。 1.2索引和搜索流程图1、绿色表示索引过程，对要搜索的原始内容进行索引构建一个索引库，索引过程包括：确定原始内容即要搜索的内容à采集文档à创建文档à分析文档à索引文档 2、红色表示搜索过程，从索引库中搜索内容，搜索过程包括：用户通过搜索...

2016-12-13 11:29:41 3541

原创 2、什么是Lucene

1.1什么是Lucene?Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能。1.2Lucene与搜索引擎的区别全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。全文检索系统是一个可以运行的系统，包括建立索引、处理...

2016-12-13 11:23:53 550

原创 1、什么是全文检索

1.1结构化数据和非结构化数据我们生活中的数据总体分为两种：结构化数据和非结构化数据。 · 结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。· 非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等。1.2对结构化数据的搜索对数据库的搜索，用SQL语句。再如对元数据的搜索，如利用windows搜索对文件名，类型，修改时间进行搜索等。1.3对非结...

2016-12-13 11:21:23 5224

u013115157的博客