搜索引擎
slimina
这个作者很懒,什么都没留下…
展开
-
Lucene/Solr资料文章整理
Solr、SolrCloud安装配置tomcat7下安装solr 4.3solrcloud在tomcat下安装(一)solrcloud在tomcat下安装(二)solrcloud在tomcat下安装(三)tomcat solrcloud zookeeper外部部署solr:配置多核(Multiple SolrCores)Solr 缓存配置Lucene、Solr应用,原创 2015-01-18 14:36:38 · 1315 阅读 · 0 评论 -
Solr之常见配置
本节主要说明solrconfig.xml、solr.xml中有关solr的配置,如索引、查询、缓存等Solr有关的配置常用选项。原创 2015-07-02 21:46:44 · 2076 阅读 · 0 评论 -
Solr之spring集成
Spring data solr 实现了spring data访问Solr存储,并提供了spring data jpa模型的访问方式,另外,spring data solr提供了一个更底层的SolrTemplate,以方便启动一个嵌入式的solr服务器。原创 2015-07-02 22:00:46 · 10627 阅读 · 0 评论 -
Solr之SolrCloud配置mmseg4j同义词
前提,已经安装配置好Tomcat与Solr,并且配置好mmseg4j中文分词。原创 2015-07-02 22:12:07 · 1561 阅读 · 0 评论 -
Solr之中文分词
针对Solr的分词器比较多,其中最常用的的两个是mmseg4j和ik-analyzer,使用都很方便,关于分成器的比较参考:与Lucene 4.10配合的中文分词比较,ik-analyzer最新版本IKAnalyzer2012FF_u1与最新版本solr有兼容问题,由于我们使用的solr是5.2.1,下面外面以mmseg4j为例演示一下solr配置:原创 2015-07-02 21:41:47 · 5005 阅读 · 0 评论 -
Solr之SolrCloud简介
在solr4.0之前,solr的只能实现主从配置,不能实现solr的分布式搜索。SolrCloud是Solr4.0版本以后基于Solr和Zookeeper的分布式搜索方案。SolrCloud是Solr的基于Zookeeper一种部署方式。Solr可以以多种方式部署,例如单机方式,多机Master-Slaver方式。原创 2015-07-02 22:07:18 · 2418 阅读 · 1 评论 -
Solr之SolrCloud集群测试
前面我们已经成功搭建了solrcloud集群,下面我们通过solrj演示一下索引的创建,删除及查询。原创 2015-07-02 22:09:54 · 5556 阅读 · 0 评论 -
Lucene中文分词IK Analyzer
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。原创 2015-06-23 16:44:14 · 5874 阅读 · 0 评论 -
Solr之分组查询facet
用户查询之后通过点击分组,能继续缩小搜索范围,来定位自己想要的内容,效果图入下:Solrj 代码/** * 一个演示方法,根据查询关键词查询结果,连带查结果对应的栏目分组情况 。 * * @param kw 搜索词 */public static void query(String kw) { SolrQuery query = new SolrQuer转载 2015-07-02 21:50:07 · 2000 阅读 · 1 评论 -
Solr之SolrCloud集群搭建
本机主要演示SolrCloud基于zookeeper集群搭建,多台zookeeper服务器具备系统高可靠性,高可用性,任意一台zookeeper服务器挂掉,系统会选举出一台服务器为leader。多台Solr,任意一台solr服务器挂掉,系统还是可以用的。solr安装包里面已经包含zookeeper,但是这样集成在一起,耦合度太高,不利于扩展。每一次重启tomcat,就相当于重启zookeeper了一遍,造成zookeeper集群不稳定,一般都是单独安装配置zookeeper集群,zookeeper集群最好有原创 2015-07-02 22:08:47 · 5240 阅读 · 0 评论 -
Lucene介绍
Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。人们经常提到信息检索程序库,虽然与搜索引擎有关,但不应该将信息检索程序库与搜索引擎相混淆。原创 2015-06-23 16:41:14 · 961 阅读 · 0 评论 -
Solr之查询时设置字段的boost值,改变默认打分排序
有时候默认的字段打分不能满足我们的需要,如我们想把关键词出现在标题中的优先显示。测试于:Solr 4.5.1, Jdk 1.6.0_45, Tomcat 6.0.37 | CentOS 5.7实现方法有3个:在建索引的时候设置boost,这个值会写入文件,建索引时有额外的性能开销;在查询的时候指定boost,这个值不会写入文件,查询时指定任意字段的boost值,适用与一个索转载 2015-07-02 21:51:47 · 3602 阅读 · 0 评论 -
Solr之SolrCloud高亮查询
演示一下solr对搜索内容以高亮显示....原创 2015-07-02 22:11:04 · 2377 阅读 · 0 评论 -
Solr之客户端SolrJ
SolrJ是操作Solr的JAVA客户端,它提供了增加、修改、删除、查询Solr索引的JAVA接口。SolrJ针对Solr提供了Rest的HTTP接口进行了封装,SolrJ底层是通过使用httpClient中的方法来完成Solr的操作。SolrJ通常向后保持兼容性,可以使用新版本的SolrJ访问较旧的Solr,反之亦然。建议使用同Solr server同版本的SolrJ。原创 2015-07-02 21:43:22 · 2462 阅读 · 0 评论 -
Solr之SolrCloud配置HDFS
Solr has support for writing and reading its index and transaction log files to the HDFS distributed filesystem. This does not use Hadoop Map-Reduce to process Solr data, rather it only uses the HDFS filesystem for index and transaction log file storage.原创 2015-07-02 22:13:21 · 3425 阅读 · 0 评论 -
Solr之简单测试
服务启动后,目前你看到的界面没有任何数据,为了方便用户往solr中添加索引,Solr为用户提供了一个post.jar工具,用户只需要在命令行下运行post.jar并传入一些参数就可以完成索引的增删改操作,它仅仅是一个供用户进行Solr测试的工具而已原创 2015-07-02 21:38:33 · 2753 阅读 · 0 评论 -
Lucene中文分词mmseg4j
mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。原创 2015-06-23 16:47:44 · 1924 阅读 · 1 评论 -
Lucene索引创建、查询与高亮
前面我们介绍少了Lucene的基本使用及中文分词,下面我以一个实例来看一下Lucene的使用方式。原创 2015-06-23 16:50:22 · 1428 阅读 · 0 评论 -
Lucene中文分词Jcseg
jcseg是使用Java开发的一款开源的中文分词器, 基于流行的mmseg算法实现,分词准确率高达98.4%, 支持中文人名识别, 同义词匹配, 停止词过滤等。并且提供了最新版本的lucene,solr,elasticsearch分词接口。原创 2015-06-23 16:45:53 · 4957 阅读 · 2 评论 -
与Lucene 4.10配合的中文分词比较
比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding: 庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene 3.0,且最新提交的代码在 2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:转载 2015-06-23 16:49:03 · 1400 阅读 · 0 评论 -
Lucene中文分词介绍
由于lucene自带的分词方式对中文分词十分的不友好,所以在对一段中文中的某个词组进行搜索时,需要在创建索引是对其进行分词。下面介绍一些常见的中文分词器。原创 2015-06-23 16:42:59 · 977 阅读 · 0 评论 -
Lucene中文分词Paoding
Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。原创 2015-06-23 16:47:02 · 3419 阅读 · 0 评论 -
Lucene简单搜索引擎模拟
前面介绍了Lucene的索引与搜索,及中文分词,下面用一个小实例模拟一下搜索引擎。原创 2015-06-23 16:51:43 · 1178 阅读 · 0 评论 -
Lucene使用实例
Lucene全文检索大体分两个部分:索引创建(Indexing)和搜索索引(Search)原创 2015-06-23 16:42:15 · 1357 阅读 · 1 评论 -
Lucene优化
使用Lucene来开发搜索引擎,一般不会太关注创建索引的效率(异步或定时创建索引),但是,当数据达到一定量级的时候,我们就必须要考虑如何的去提高创建索引的性能,以减少创建索引的时间以及提高查询效率。以下几点可以参考,当然Lucene已经为我们做了优化,通常采用默认的方式创建索引即可。原创 2015-06-23 16:53:03 · 2728 阅读 · 0 评论 -
Solr之关系型数据库导入数据
通常创建数据库有有如下方式:1.通过程序或http创建索引2.通过和数据库对接自动创建索引下面我们演示一下通过数据库全量或增量创建索引。原创 2015-07-02 21:44:51 · 2431 阅读 · 0 评论 -
Solr之配置suggest功能
suggest 是搜索引擎一个方便的功能,对数据的关键字进行预测和建议,减少了用户的输入,大体的效果如下:幸运的是 solr 也提供了类似的功能,在该功能的基础上,配合 jQuery 或 kissy 的自动完成组件就可以实现类似上面的功能。启动该功能的过程大体如下:suggest 的功能依赖拼写组件,solr_home/data 目录下会有一个 spellchecker 目录,该目转载 2015-07-02 21:48:53 · 3085 阅读 · 0 评论 -
Solr之集群Replication配置与实践
Solr作为一个搜索服务器,在并发搜索请求的场景下,可能一台服务器很容易就垮掉,这是我们可以通过使用集群技术,设置多台Solr搜索服务器同时对外提供搜索服务,在前端使用类似Nginx的负载均衡软件,可以通过配置使得并发到达的搜索请求均匀地反向代理到Solr集群中的每一台服务器上,这样每台Solr搜索服务器搜索请求的压力可以大大减小,增强了每台服务器能够持续提供服务器的能力。然而,这时我们面转载 2015-07-02 22:02:28 · 1143 阅读 · 0 评论 -
Solr之介绍与安装
Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。Solr 包装并扩展了 Lucene,所以Solr的基本上沿用了Lucene的相关术语。更重要的是,Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以阅读和使原创 2015-07-02 21:37:36 · 1097 阅读 · 0 评论 -
Solr之特殊字符转义处理
做站内搜索时,如果输入的参数中包含英文冒号、双引号或其他具有特殊含义的字符时,可能需要做转义来避免查不到数据的问题。测试于:Solr 4.5.1, Jdk 1.6.0_45, Tomcat 6.0.37 | CentOS 5.7异常信息:如本站内有一篇文章标题为: java.lang.NumberFormatException: For input string转载 2015-07-02 21:53:07 · 7504 阅读 · 0 评论