![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
search
文章平均质量分 59
iteye_4814
这个作者很懒,什么都没留下…
展开
-
solr 跑起来
一个项目要求,需要做一个站内搜索,由于偏爱apache 的东西,由于喜欢他们的wiki,所以选择了solr,所以选择了tomcat 作为容器。我们的数据一般都放在db中, 所以在初始化的时候,我们必须从数据库中倒入数据,作为原始的积累。 好的,三步走,跟我来。1. 从apache的官网下载solr 和 tomcat 最新的包,并解压。2. 在solr的example中...原创 2013-10-14 16:54:32 · 130 阅读 · 0 评论 -
lucene 存储,访问小技巧
lucene为了能够是信息存储的空间更小,访问速度更快,用了一些小技巧,下面介绍一些技巧:1. Prefix + Suffix 在保存Term Dictionary的时候,会保存几乎所有的词,这样索引文件会非常大,当某个词跟前面一个词拥有相同前缀的时候,后面的词仅仅保存前缀在词中得偏移,以及除了前缀之外的字符串。比如存储如下几个词: term, termagancy, ter...2014-03-30 17:58:05 · 94 阅读 · 0 评论 -
lucene 4.6 之indexing 之 IndexWriter, DocumentWriter
lucene 的操作主要分成 indexing 和 searching , 两个操作也就完成了整个闭环操作,咱们先从这个indexing说起。class IndexWriter 可以说是lucene暴露给上层应用的一个类。上层应用程序通过这个类打开lucene的索引世界。通过了解这个类得成员变量来了解这个类到底是干什么的,有几个比较重要的对象:private final Direc...原创 2014-03-28 10:31:02 · 117 阅读 · 0 评论 -
lucene 4.6 之索引文件格式
名词解释:document 包含一系列的fieldsfield是一系列terms的代号term是一系列的bytes 倒排索引:这个索引存储了关于这个term的一些统计,为什么叫做倒排索引,因为这个能够列出包含这个term的所有文档,这是正常关系的一个逆,正常关系是一个文档列出里面有哪些词。 fields的类型:一个field能够被stored,如果这么设置,...原创 2014-02-26 19:50:38 · 90 阅读 · 0 评论 -
lucene 之 全文检索概述
我们日常生活中的数据可以分成两种,一种是结构化数据,还有一种是非结构化数据。结构化数据就是固定格式和有限长度的数据,比如数据库和元数据等等。非结构化就是无固定格式和不定长的数据,比如邮件和word文档。还有介于两者之间的,半结构化数据,比如XML,html等,看具体需求可以有不同的处理方法。非结构化数据还可以叫做全文数据。搜索引擎一般是针对这种数据来索引。一种最直观的方法可...原创 2014-02-05 16:22:26 · 80 阅读 · 0 评论 -
solr searching 过程解析
翻译自 Apache Solr Reference Guide solr提供了一个十分灵活,可拓展的搜索特性,当我们发送一个请求的时候,一个search query 被一个叫做requst handler处理,solr提供许多类型的request handler,有的是为了处理搜索请求的,还有一些设计成帮助管理请求的。 能够处理搜索请求的request handler叫做 q...原创 2014-01-10 21:34:58 · 94 阅读 · 0 评论 -
solr indexing 和基本的数据操作
翻译自 Apache Solr Reference Guide indexing:solr的索引能够接受不同途径的index,包括XML文件,CSV文件,数据库里的表,或者word,PDF中的信息。有三种方式可以建立solr的索引,可以用tika中的solr cell 来给word,PDF等office文件来建立索引,可以使用http请求来建,还可以使用提供的标准API,这种方式...原创 2014-01-09 12:00:11 · 135 阅读 · 0 评论 -
理解solr中的 Analyzer,Tokenizer,Filter
翻译自 Apache Solr Reference Guide Analyzer:analyzer负责检查这个field,然后生成一个token流,一般作为fieldType的一个字节点存在,比如:<analyzer type="query"> <tokenizer class="solr.WhitespaceTokenizerFactory...原创 2014-01-08 18:24:29 · 210 阅读 · 0 评论 -
solr Document,Fields,Schema设计概况
翻译自 Apache Solr Reference Guide solr一个最基本的设计原则是简洁, 你告诉他很多信息,然后问他一些问题,他会给你回答的一段信息,你喂给他的这部分叫做 indexing, 你问他的问题叫做 query。一个理解solr的方法是举个例子,我们用一个美食的活页本,每一次你加一个活页到这本书中,你更新在最后面的索引,你列举菜的每个成分和页码在最后,设想一...原创 2014-01-08 00:25:10 · 177 阅读 · 0 评论 -
solr admin UI
翻译自 Apache Solr Reference Guide 如果用solr自带的jetty来运行程序,http://hostname:8983/solr/ 是主界面。左边是logo和菜单, 以此作用是,看一些系统信息,系统打出来的log,每一个Core的信息,java system的参数,线程运行情况。 在每一个ui的最底端,是一些帮助文档连接到一些官网,关于am...原创 2014-01-07 14:36:25 · 124 阅读 · 0 评论 -
lucene 4.6 之indexing 之 IndexChain,索引数据结构
/* This is the current indexing chain: DocConsumer / DocConsumerPerThread --> code: DocFieldProcessor --> DocFieldConsumer / DocFieldConsumerPerField...原创 2014-04-06 21:17:34 · 125 阅读 · 0 评论