搜索引擎
文章平均质量分 75
liuweitoo
浪迹天涯多逍遥,随遇而安好自在~~~~
Young men without dreams as if the Spring without
展开
-
Solr中文分词配置(IKAnalyzer)
本文介绍以IKAnalyzer为主的Solr中文分词的配置。 1. 关于IKAnalyzerIK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用原创 2012-10-31 17:35:56 · 4239 阅读 · 1 评论 -
Solr源码结构
1. 目录结构说明我们下载的Solr包中,进入Solr所在的目录,我们可以看到以下几个目录:build、client、dist、example、lib、site、src。下面分别对其进行介绍。1.1. build该目录是在ant build过程中生成的,其中包含了未被打包成jar或是war的class文件以及一些文档文件。1..2. client该目录包含了特定语言原创 2012-10-30 16:46:35 · 7713 阅读 · 0 评论 -
LuceneInAction(第2版)学习笔记——第三章 为应用程序添加搜索功能
1. 实现简单的搜索功能1.1 对特定项的搜索: 编程实现查询语句 这种搜索程序员有最终解释权,可以提供灵活的UI IndexSearcher类是用于对索引中文档进行搜索的核心类,它有多个重要的重载方法。 public static Directory getBookIndexDirectory() throws IOException{ return FSDire原创 2012-11-01 16:27:08 · 1979 阅读 · 0 评论 -
Solr配置文件说明
运行solr是个很简单的事,如何让solr高效运行你的项目,这个就不容易了。要考虑的因素太多。这里很重要一个就是对solr的配置要了解。懂得配置文件每个配置项的含义,这样操作起来就会如鱼得水!在solr里面主要的就是solr的主目录下面的schema.xml,solrConfig.xml。solrconfig.xml,主要定义solr的处理程序(handler)和一些扩展程序;原创 2012-10-31 16:00:57 · 14695 阅读 · 0 评论 -
Solr的admin页面说明
admin页面如下所示 本页,各部分说明如下: 顶部灰色部分头部信息,当启动多个Solr实例时,可以帮助了解在操作哪个实例。IP地址和端口号都是可见的。 example(Admin旁边)是对这个schema的引用,仅仅是标识这个schema。如果你有很多schema,可以用这个标识去区分。 当前工作目录(cwd) ,和Solr的根目录(SolrHome)。 导航栏上原创 2012-11-01 11:47:37 · 7360 阅读 · 0 评论 -
Solr的Facet学习笔记与个人总结
1. Facet简介 Facet是solr的高级搜索功能之一,可以给用户提供更友好的搜索体验。 在搜索关键字的同时,能够按照Facet的字段进行分组并统计。 2. Facet字段 2.1. 适宜被Facet的字段 一般代表了实体的某种公共属性。如商品的分类,商品的制造厂家,书籍的出版商等等。 2.2. Facet字段的要求原创 2012-11-02 15:31:32 · 5440 阅读 · 0 评论 -
Solr基础理论与维护管理快速上手(含查询参数说明)
1、 solr基础 因为 Solr 包装并扩展了 Lucene,所以它们使用很多相同的术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。在 Solr 和 Lucene 中,使用一个或多个 Document 来构建索引。Document原创 2012-11-01 14:51:51 · 2834 阅读 · 0 评论 -
Lucene和Solr 学习目录
几个概念先行说明一下:Lucene: 是一个索引与搜索类库,而不是完整的程序。Solr:是一个高性能,采用Java5开发,基于Lucene的一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。Nutch:是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。Hadoop: 实现了一个分布式文件系统(Hadoop Di原创 2012-10-29 15:12:59 · 19107 阅读 · 5 评论 -
Lucene索引文件结构速览
Lucene的索引结构是有层次结构。每个层次都保存了本层次的信息以及下一层次的元信息。1) 索引Index 在Lucene中,一个索引是放在一个文件夹中的2) 段Segment 一个索引可以包含多个段,段与段之间是独立的。 添加新文档可以生成新的段,不同的段可以合并。3) 文档Doucument 文档是我们建索引的基本单位 不同的是保存在不同的段中的 一原创 2012-11-05 15:35:57 · 1782 阅读 · 0 评论 -
LuceneInAction(第2版)学习笔记——第四章 Lucene的分析过程
分析Analysis,在Lucene中指的是将域(Field)文本转换成最基本的索引表示单元————项(term)的过程。 在搜索过程中,这些项用于决定什么样的文档能够匹配查询条件。 分析器对分析操作进行了封装,它通过执行若干操作,将文本转换成语汇单元。 这些操作有: 提取单词、去除标点符号、去掉字母上的音调符号、 将字母转换成小写(也称规范化)、去除常用词、 将单词原创 2012-11-01 16:27:54 · 3011 阅读 · 0 评论 -
LuceneInAction(第2版)学习笔记——第五章 高级搜索技术
LuceneInAction(第2版)学习笔记——第五章 高级搜索技术原创 2012-11-06 10:20:51 · 694 阅读 · 0 评论 -
Solr多核配置
大体步骤同单核配置一样,可以参考《Windows下安装配置Solr (tomcat7.0)》。 1. 为什么要采用多核1.1. 多核的目的 Solr Multicore 的目的一个solr实例,可以有多个搜索应用。既然可以把不同类型的数据放到同一index中,也可以使用分开的多indexes。基于这一点,你只需知道如何使用多 indexes(实际上就是运行Solr的多实原创 2012-10-31 15:21:36 · 7031 阅读 · 1 评论 -
LuceneInAction(第2版)学习笔记——第二章 构建索引
1. 文档和域1.1.文档和域的关系文档是Lucene索引和搜索的原子单位。 文档为包含一个或多个域的容器,而域则依次包含“真正的”被搜索内容。 每个域都有一个标识名称,该名称为一个文本值或二进制值。 将一个文档加入到索引中时,可以通过一系列选项来控制Lucene的行为。 在对原始数据进行索引时,得先将数据转换成Lucene所能识别的文档和域。 在随后的搜索过原创 2012-11-01 16:26:33 · 2715 阅读 · 0 评论 -
为多核Solr实例添加一个支持默认示例数据的核
在实际的Solr实例中,大部分可能会采用多核来进行配置。 关于多核配置,可以查看另一篇《Solr多核配置》。 但,默认的多核配置,没有为导入默认示例的数据做好相关准备,如:schema.xml和solrconfig.xml。相关的类库也没有准备。 下面,以添加一个名为liuweitoo的,支持默认示例数据的核为例 ,进行说明。 前置说明:我的多核实例主目录 solr原创 2012-11-01 11:02:14 · 3396 阅读 · 0 评论 -
利用SolrJ操作solr API完成index操作
使用SolrJ操作Solr会比利用httpClient来操作Solr要简单。SolrJ是封装了httpClient方法,来操作solr的API的。SolrJ底层还是通过使用httpClient中的方法来完成Solr的操作。1、 首先,你需要添加如下jar包 其中apache-solr-solrj-3.4.0.jar、slf4j-api-1.6.1.jar可以在下载的apache-sol原创 2012-11-01 15:29:13 · 28183 阅读 · 2 评论 -
Windows下安装配置Solr (tomcat7.0)
下面介绍Windows下安装配置Solr,与在Linux下类似。1. 安装准备1.1. 下载tomcat 7http://tomcat.apache.org/ 我是下绿色版,即zip的,x64位(因服务器是x64) apache-tomcat-7.0.32-windows-x64.zip1.2. 安装tomcat7在D盘新建一个apache文件夹,将原创 2012-10-30 18:05:42 · 7331 阅读 · 0 评论 -
导入Solr默认的示例数据
在Solr的下载包中,包含了很多示例数据(主要是.xml为扩展名的文件),我们也可以使用相关的命令,将这些示例数据导入到Solr实例中。 1. 进入Solr下载包主目录下的exampledocs目录,并执行相关命令 注意:-D参数是输入Solr实例的URL。 post.jar是一个简单的程序,会遍历所有的参数(这里就是*.xml),然后对本机正运行的Solr(exam原创 2012-11-01 09:21:19 · 2998 阅读 · 0 评论 -
Solr配置文件schema.xml和solrconfig.xml分析
一、字段配置(schema)schema.xml位于solr/conf/目录下,类似于数据表配置文件,定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。name:就是这个FieldType的名称原创 2012-11-01 15:44:32 · 29978 阅读 · 2 评论 -
Linux下安装与配置Solr
下面介绍Linux下安装配置Solr,windows与此类似。1. 安装准备1.1. 下载tomcat 6.0.2http://tomcat.apache.org/1.2. tomcat调优调优tomcat 加大内存和连接数 MaxThread 500 MinSpareThread 25 MaxSpareThread75 Xmx 1024M原创 2012-10-30 17:47:54 · 10124 阅读 · 0 评论 -
Solr搜索结果说明
在admin页面,输入相关内容后,会返回xml格式的内容。说明如下: 0 3 on 10 0 monitor 2.2 <!--如果是full interface查询,这里会有得分情况(默认) 0.5原创 2012-11-01 14:46:08 · 2916 阅读 · 0 评论 -
在Jetty容器运行Solr----标准运行方式
事实上,Solr的包下载下来以后,是可以不用配置tomcat,而直接使用内置的Web容器即可运行的。 这个内置的Web容器,就是Jetty。 dos进入下载包的解压后的主目录,下面以包主目录说明。 我的包解压后是放在 D:\apache\apache-solr-3.6.1。 1.找到Solr下载包的主目录 2. DOS进入Solr下载包主目录下的exa原创 2012-11-01 08:59:36 · 7216 阅读 · 0 评论 -
LuceneInAction(第2版)学习笔记——目录
LuceneInAction(第2版)学习笔记--目录 第一章 初识Lucene 第二章 构建索引 第三章 为应用程序添加搜索功能 第四章 Lucene的分析过程原创 2012-11-01 16:22:24 · 2240 阅读 · 0 评论 -
LuceneInAction(第2版)学习笔记——第一章 初识Lucene
Lucene: 是一个搜索类库,而不是完整的程序A. 索引组件 根据原始内容创建索引Raw Content : Acquire Content --> Build Document --> Analyze Document(*) --> Index Document(*) ==> Index(*)原始内容 : 获取内容(提取文本) --> 建立文档 -原创 2012-11-01 16:26:03 · 1640 阅读 · 0 评论 -
个人博客总目录
OO学习目录DotNet学习目录Lucene和Solr 学习目录LuceneInAction(第2版)学习笔记——目录Orchard学习目录Linux学习目录原创 2012-11-08 10:54:09 · 1089 阅读 · 0 评论