![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Lucene相关
laoliu_soso
这个作者很懒,什么都没留下…
展开
-
转载solr的应用文章
利用SOLR搭建企业搜索平台 之一(运行solr) 在网络上找了很多的关于solr的资料,发现非常的不全面,即使就是官方的wiki,也是如此! 基于现阶段正在研究的solr应用,陆续的会分享我的一些经验! 今天要说的是: 怎么跑起来! 1》 首先下载好solr,我用的是 solr1.3,下载地址: windows版本 http://labs.xiaonei....2010-03-28 16:06:54 · 74 阅读 · 0 评论 -
关于lucene的分词(三)
到此为止这个简单的但是功能强大的分词器就写完了,下面咱们可以尝试写一个功能更强大的分词器. 如何DIY一个功能更加强大Analyzer 譬如你有词典,然后你根据正向最大匹配法或者逆向最大匹配法写了一个分词方法,却想在Lucene中应用,很简单 你只要把他们包装成Lucene的TokenStream就好了.下边我以调用中科院写的ICTCLAS接口为例,进行演示.你去中科院 网站可以拿到此接口...2010-04-02 16:26:48 · 101 阅读 · 0 评论 -
关于lucene的分词(二)
于Lucene的analyisis包下的Standard包下的StandardAnalyzer()功能很强大,而且支持CJK分词,我们简要说一下. 此包下的文件是有StandardTokenizer.jj经过javac命令生成的.由于是机器自动生成的代码,可能可读性很差,想了解的话好好看看那个StandardTokenizer.jj文件就会比较明了了. Lucene常用的Analyzer功能概...2010-04-02 16:27:28 · 92 阅读 · 0 评论 -
关于lucene的分词(一)
算法和数据结构分析: 由于Analysis包比较简单,不详述了! 算法:基于机械分词 1-gram,2-gram,HMM(如果使用ICTCLAS接口的话) 数据结构:部分源码用到了Set ,HashTable,HashMap 认真理解Token Lucene中的Analysis包专门用于完成对于索引文件的分词.Lucene中的Token是一个非常重要的概念. 看一下其源码实现:...2010-04-02 16:27:59 · 107 阅读 · 0 评论 -
lucene、lucene.NET详细使用与优化详解
1 lucene简介1.1 什么是luceneLucene是一个全文搜索框架,而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用,它只是提供了一种工具让你能实现这些产品。1.2 lucene能做什么要回答这个问题,先要了解lucene的本质。实际上lucene的功能很单一,说到底,就是你给它若干个字符串,然后它为你提供一个全文搜索服务,告诉你你要...2010-04-02 16:28:36 · 58 阅读 · 0 评论 -
Lucene 提高搜索性能方式
1、对于按创建时间的排序可以使用doc.id的方式 new SortField(null, SortField.DOC, reverse)排序方式尽量使用INT类型的字段 也就是按照写入索引的顺序排序 2、对于时间字符串的排序可以转换成整数进行排序 3、去掉不必要的parse 使用TermQuery替换 4、TermQuery和Term可以只保留一个实例 createTerm(text) 5、减少...2010-04-02 16:29:06 · 116 阅读 · 0 评论 -
Lucene打分公式的数学推导
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下。因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数。 Lucene的打分公式非常复杂,如下: 在推导之前,先逐个介绍每部分的意义: t:Term,这里的Term是指包含域信息的Term,也即title:hello和content:hell...原创 2011-02-20 22:59:09 · 82 阅读 · 0 评论