搜索引擎技术
damoqingquan
这个作者很懒,什么都没留下…
展开
-
solr 的分析器,分词器和分词过滤器(1)
【本文基于对此英文网页的理解http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters】 概览 当对一个文档(document是一系列field的集合)进行索引时,其中的每个field(document和file都是lucene中的概念)中的数据都会经历分析,分词和多步的分词过滤等操作。这一系列的动作是什么呢?直观的理解是...2008-08-21 16:06:01 · 205 阅读 · 0 评论 -
solr 的分析器,分词器和分词过滤器(2)
5. solr.HTMLStripWhitespaceTokenizerFactory 从结果中出去HTML标签,将结果交给WhitespaceTokenizer处理。 例子: my <a href="www.foo.bar">link</a> my link <?xml?><br>hello<!--comment--...2008-08-21 18:08:40 · 178 阅读 · 0 评论 -
nutch 安装及使用中若干常见问题
最近在搭建nutch搜索平台,期间遇到许多问题,在此与各位分享。由于具体安装过程网上已经有详细的解释,再次不必多言,只简单提一下大致过程,以期各位有宏观上的认识。 nutch0.8安装:http://blogger.org.cn/blog/more.asp?name=lhwork&id=19244 nutch0.9安装:http://www.cnblogs.com/dev2...2008-08-30 11:05:56 · 237 阅读 · 0 评论 -
solr搜索引擎特性
英语原文(官方)翻译 Solr 简介 Solr 是一个带有web界面的企业级搜索服务器。它通过http协议将xml格式的文件进行索引,通过http协议进行查询,返回结果为xml格式。 * 先进的全文搜索能力 * 优化的web流量 * 基于开放接口(xml&http)的标准 * 集成的HTML管理界面 * 可扩展性-与其它Solr 服务器的高效结合 * 通过xml配置实现的灵活性和适应性 *...2008-10-09 13:22:36 · 201 阅读 · 0 评论 -
solr 术语解释
自动预热(Auto-warming)--当Solr打开一个新的缓存的时候,它以一个旧的缓存中与顶级键(top key)相关的“键值对”为基础建立新的缓存。 约束(Constraint)对一组对象的限制方法。 层面(Facet)一系列对象的不同的侧面,对象被分类的方法。 Filter---依赖不同的上下文,有不同的意思。 1. Constraint的同义词 2. “过滤”对一组结果的有条件的选择 3...2008-10-09 13:23:43 · 235 阅读 · 0 评论 -
solr的配置参数理解
l dataDir参数 用于替换默认的索引数据目录(./data)。如果重复指定,将使用重复的值。如果不是绝对路径,将使用servlet容器当前工作目录下的相对路径。 <dataDir>/var/data/solr</dataDir> l mainIndex参数部分 mainIndex> <!-- lucene options specif...2008-10-09 13:27:56 · 386 阅读 · 0 评论 -
Solr1.3的启动过程分析一
1. Solr1.3中使用初始化工具Initializer的实例来获得CoreContainer的对象。常规的步骤如下: ------------------------------------------- Initializer initializer=new Initializer(); //获得配置文件名,如果不调用该方法,将使用默认的solr.xml ...2008-12-18 17:13:51 · 162 阅读 · 0 评论 -
Solr1.3的启动过程分析二
这里讲讲CoreContainer的load(String dir, File configFile )方法所做的事情,也就是如何根据主目录下的solr.xml配置文件的数据以及主目录来对每个ScoreCore进行初始设置的,这些工作属于服务器启 动的一部分。 先来说说参数吧,配置文件对象直接赋予CoreContainer的configFile 属性,而主目录路径dir则是用来构建一个...2008-12-19 11:35:13 · 139 阅读 · 0 评论 -
Solr1.3的启动过程分析三
在Solr1.3的启动过程分析二中,我们从Solr.xml文件中获得了xpath 为solr/cores/core的结点的表,这写节点对应多个的核。现在我们要看看如果对每个核进行初始化的。 在CoreContainer的load(String dir, File configFile )方法中的for循环中,每次循环处理一个核的创建以及初始化。 通过Node node = nod...2008-12-19 18:20:49 · 160 阅读 · 0 评论