lucene/solr/nuth/elasticsearch/MG4J
文章平均质量分 82
tao_wei162
这个作者很懒,什么都没留下…
展开
-
全文检索
全文检索(full-text search),是指从文本或数据库中,不限定资料字段,自由地萃取出讯息的技术。 而搜索引擎(search engine),是指执行全文检索任务的程序,一般称作搜索引擎(search engine),它将使用者随意输入的文字,试图从数据库中,找到符合的内容 标签定义列表项目。 标签可用在有序列表 () 和无序列表 () 中。CSS中,可以用伪类来改变...原创 2016-07-01 19:16:06 · 180 阅读 · 0 评论 -
Nutch+ElasticSearch/Solr+Hadoop
方案:Nutch+ElasticSearch/Solr+Hadoop Nutch:爬取网页 ES/Solr:构建索引库,提供搜索服务,Restful API支持 Hadoop:hdfs用于存储索引文件,关于存储也可以考虑NoSql,如:cassandra,hbase...原创 2016-09-07 14:41:36 · 268 阅读 · 0 评论 -
elasticsearch集群管理工具head插件
elasticsearch-head是一个elasticsearch的集群管理工具,它是完全由html5编写的独立网页程序,你可以通过插件把它集成到es 插件安装方法1:1.elasticsearch/bin/plugin -install mobz/elasticsearch-head2.运行es3.打开http://localhost:9200/_plugin/hea...原创 2016-09-27 14:08:55 · 147 阅读 · 0 评论 -
elasticsearch来存储你的日志
用ElasticSearch存储日志 介绍如果你使用elasticsearch来存储你的日志,本文给你提供一些做法和建议。如果你想从多台主机向elasticsearch汇集日志,你有以下多种选择:•Graylog2 安装在一台中心机上,然后它负责往elasticsearch插入日志,而且你可以使用它那个漂亮的搜索界面~•Logstash 他有很多特性,包...原创 2016-09-29 14:27:51 · 684 阅读 · 0 评论 -
Elasticsearch是当今最流行的分布式搜索引擎
Elasticsearch是当今最流行的分布式搜索引擎,GitHub、 SalesforceIQ、Netflix等公司将其用于全文检索和分析应用。在Insight,我们用到了Elasticsearch的诸多不同功能,比如:全文检索 比如找到与搜索词项(term)最相关的维基百科文章。聚合 比如在广告网络中,可视化的搜索词项的竞价直方图。地理空间...原创 2016-09-30 15:13:18 · 501 阅读 · 0 评论 -
大数据处理方面的 7 个开源搜索引擎
要分析这些数据需要专门的软硬件,本文介绍 7 个开源的搜索引擎适合用于大数据处理: Apache Lucene Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。 Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基...原创 2016-10-08 11:18:24 · 113 阅读 · 0 评论 -
elasticsearch的java的API
在elasticsearch源代码中,进入到org.elasticsearch.client,你会发现下图所示的类:我们从最外层开始。1 org.elasticsearch.client.AdminClient接口AdminClient下有两个方法: 1) cluster(),产生一个允许从集群中执行action或操作的client; 2) indices(),产生一个允许从索...原创 2016-10-11 10:09:37 · 218 阅读 · 0 评论 -
Elasticsearch中的CRUD
Create curl -X POST http://localhost:9200/kiwi/ksay/ -d '{ "author": "rococojie", "message": "I am beautiful"}'返回:{"_index":"kiwi","_type":"ksay","_id":"原创 2016-10-11 10:09:59 · 87 阅读 · 0 评论 -
Kibana
Kibana 是一个为 Logstash 和 ElasticSearch 提供的日志分析的 Web 接口。可使用它对日志进行高效的搜索、可视化、分析等各种操作。环境要求:ruby >= 1.8.7 (probably?) bundler logstash >= 1.1.0 elasticsearch >= 0.18.0...原创 2016-10-12 10:37:05 · 95 阅读 · 0 评论 -
Elasticsearch+Logstash+Kibana教程
Elasticsearch中文参考文档Elasticsearch官方文档Elasticsearch其他——那些年遇到的坑Elasticsearch 管理文档Elasticsearch集群配置以及REST API使用Elasticsearch集群管理Elasticsearch 数据搜索篇·【入门级干货】Elasticsearch使用REST API实现全文检...原创 2016-10-12 10:37:20 · 199 阅读 · 0 评论 -
elasticsearch的and,filter,or
这里有一篇很好的文章,很不错,翻译和整理了一下,英文不错的,建议直接看原文:http://euphonious-intuition.com/2013/05/all-about-elasticsearch-filter-bitsets/elasticsearch里面有BOOL filter、AND、OR、NOT filter,这几个看起来很相似,都有什么区别呢?什么时候用boolfilter...原创 2016-10-13 16:36:06 · 1248 阅读 · 0 评论 -
es的连接查询
在一般的关系型数据库中,都支持连接操作。在ES这种分布式方案中进行连接操作,代价是十分昂贵的。不过ES也提供了相类似的操作,支持水平任意扩展,实现连接的效果。其他内容,参考Elasticsearch官方指南整理http://www.cnblogs.com/xing901022/p/4704319.html ES中的连接 在ES中支持两种连接方式:嵌套查询 ...原创 2016-10-13 16:43:05 · 1012 阅读 · 0 评论 -
es指南学习1
在Elasticsearch中存储数据的行为就叫做索引(indexing),不过在索引之前,我们需要明确数据应该存储在哪里原创 2016-10-13 16:46:42 · 74 阅读 · 0 评论 -
Elasticsearch数据架构及基本特点
Elasticsearch是由Shay Banon发起的一个开源搜索服务器项目,2010年2月发布。迄今,该项目已发展成为搜索和数据分析解决方案领域的主要一员,广泛应用于声名卓著或鲜为人知的搜索应用程序。此外,由于其分布式性质和实时功能,许多人把它作为文档数据库。Elasticsearch架构简单介绍如下。索引 索引(index)是Elasticsearch对逻辑数据的逻辑存储,...原创 2016-10-17 19:16:25 · 177 阅读 · 0 评论 -
Elasticsearch的一些优化
1. 多线程程序插入,可以根据服务器情况开启多个线程index 速度可以提高n倍, n>=2 2. 如果有多台机器,可以以每台设置n个shards的方式,根据业务情况,可以考虑取消replias curl -XPUT 'http://10.1.*.*:9200/dw-search/' -d '{ "settings" : { "number_of_s...原创 2016-10-17 19:16:45 · 95 阅读 · 0 评论 -
Cygwin是一款优秀的软件
Cygwin是一款优秀的软件,因其能在windows上模拟Linux环境,从而给我们测试某些开发程序带来极大的方便,省去了安装虚拟机的琐碎事情,也大大的节约了计算机内存和CPU的开销,所以,我们有必要了解一下它,如果是用Linux开发的道友们,也可以参考下。 笔者,曾经在windows上装过Cygwin,有安装成功,也有安装失败,在这里总结一下经验,希望可以对各位用得到的道友有所帮助。 Cyg...原创 2016-10-28 11:24:24 · 283 阅读 · 0 评论 -
1.2版本之后,Nutch专注的只是爬取数据
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。当然在百度百科上这种方法在Nutch1.2之后,已经不再适合这样描述Nutch了,因为在1.2版本之后,Nutch专注的只是爬取数据,而全文检索的部分彻底的交给Lucene和Solr,ES来做了,当然因为他们都是近亲关系,所以Nutch抓取完后的数据,非常easy的就能生成全...原创 2016-10-28 11:24:44 · 233 阅读 · 0 评论 -
windows平台下,使用nutch,得需要cygwin工具作为其模拟linux的运行环境
1,在windows平台下,使用nutch,得需要cygwin工具作为其模拟linux的运行环境,cygwin在这里的安装就不多说了,可以到http://www.cygwin.com/下下载,直接点击setup.exe即可下载,然后就点下一步下一步安装就可以了。 2,安装完cygwin,确定配置好环境变量,可以输入cygcheck -c cygwin查看版本 [img][/img],正确之后 ...原创 2016-10-28 11:27:14 · 155 阅读 · 0 评论 -
Nutch是一个优秀的开源的数据爬取框架
Nutch是一个优秀的开源的数据爬取框架,我们只需要简单的配置,就可以完成数据爬取,当然,Nutch里面也提供了很灵活的的插件机制,我们随时都可以对它进行二次开发,以满足我们的需求,本篇散仙,先来介绍下,如何在eclipse里面以local模式调试nutch,只有在eclipse里面把它弄清楚了,那么,我们学习起来,才会更加容易,因为,目前大多数人,使用nutch,都是基于命令行的操作,虽然很...原创 2016-10-31 12:49:04 · 776 阅读 · 0 评论 -
Nutch 是一个开源Java 实现的搜索引擎
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 Nutch的架构,采用了非常灵活的插件模式,大部分的核心功能,都可以通过组装插件的方式的来完成。如果想熟悉具体的nutch插件运行的机制,可以参考下nutch的官方wiki,今天散仙,主要来介绍下,怎么在nutch里,添加我们自己的插件。 1,下载nutch编...原创 2016-10-31 14:15:36 · 324 阅读 · 0 评论 -
solr从数据库导入数据到索引中
solr从数据库导入数据到索引中 准备工作需要从solr4.2中C:\Users\cuichao\Desktop\solr\solr-4.2.1\dist目录下 把solr-dataimporthandler-4.2.1.jar包拷到D:\tomcat6\apache-tomcat-6.0.36.0\webapps\solr\WEB-INF\lib目录下 第一步,需要在solrconfig....原创 2016-11-01 17:57:04 · 157 阅读 · 0 评论 -
solr增量索引配置
solr增量索引配置 1.在进行增量索引前,首先要弄懂几个必要的属性,以及数据库建表事项,和dataimporter.properties data-config.xml里面的数据 <!-- transformer 格式转化:HTMLStripTransformer 索引中忽略HTML标签 ---> <!-- query:查...原创 2016-11-01 18:49:16 · 129 阅读 · 0 评论 -
solr4.3默认的分词器
solr4.3默认的分词器是一元分词器,这个本来就是对英文进行分词的,英文大部分就是典型的根据空格进行分词,而中文如果按照这个规则,那么显然是要有很多的冗余词被分出来,一些没有用的虚词,数词,都会被分出来,影响效率不说,关键是分词效果不好,所以可以利用solr的同步发行包smartcn进行中文切词,smartcn的分词准确率不错,但就是不能自己定义新的词库,不过smartcn是跟solr同步的...原创 2016-11-02 13:38:45 · 339 阅读 · 0 评论 -
solr中文分词的种类
上一篇讲了使用solr4.3自带的smartcn进行中文分词,这一篇说一下,怎么使用IK进行分词, 在这之前先对中文分词的种类介绍一下,目前的中文分词主要有两种 1,基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器,例如smartcn等。(不支持自定义扩展词库) 2,基于正向迭代最细粒度切分算法(正向最大匹配并且最细分词)例如IK,庖丁等(支持自定义扩展词库) 安装分词前,可以去...原创 2016-11-02 13:39:00 · 330 阅读 · 0 评论 -
solr作为一种开源的搜索服务器
拼写检查功能,能在搜索时,提供一个较好用户体验,所以,主流的搜索引擎都有这个功能。在这之前,笔者先简单的说一下什么是拼写检查,其实很好理解,就是你输入的搜索词,可能是你输错了,也有可能在它的检索库里面根本不存在这个词,但是这时候它能给你返回,相似或相近的结果来帮助你校正。 举个例子,假如你在百度里面输入在在线电瓶,可能它的索引库里面就没有,但是它有可能返回在线电影,在线电视,在线观看等等一些词...原创 2016-11-02 13:39:14 · 191 阅读 · 0 评论 -
solr检索建议的功能
比较详细的介绍了拼写检查的功能,本篇笔者就来说一下检索建议的功能,可能好多才学的solr的人,都容易把二者搞混,误以为他们是同一个东西,其实不然,他们的侧重点,还是不同的,拼写检查就是用来检查用户输入的检索内容是否存在,如果不存在则,给它提示出相近,或相似的内容,而检索建议则是用户输入某个检索条件后,会立刻友好的给出一系列提示内容,并推荐首个出现的相似的词,作为推荐词。如果这个条件想关的东西一...原创 2016-11-02 13:41:30 · 167 阅读 · 0 评论 -
solr4.3的入门配置
solr4.3的入门配置 目前阿帕奇官方仅推荐2个比较稳定的版本一个是4.3的版本,一个3.6的版本 3.6的版本没有用过,所以在此无涉及,下面就来说说solr4.3的入门配置 solr4.3与solr4.2最大的区别就在与solr4.3的日志模块与核心模块分离出来了 所以在进行安装配置时需要另行配置,其他的步骤基本与solr4.2的相同 准备环境tomca...原创 2016-11-02 13:41:34 · 333 阅读 · 0 评论 -
mmseg4j在solr4.3里面的配置
前面,笔者已经介绍过solr里面另外2种中文分词的配置,今天就来就简述一下mmseg4j在solr4.3里面的配置,mmseg4j也是一款很优秀的中文分词器,是用Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory...原创 2016-11-03 11:01:52 · 181 阅读 · 0 评论 -
初识Solr
第一章 初识Solr 1.1理解solr 1.1.1 Solr是什么 1.1.2 Solr能做什么 1.1.3 Solr的历史 1.2 Solr和Lucene 1.2.1 Solr和Lucene的关系 1.2.2 Solr为Lucene做了哪些事情 1.4 Solr的核心类 1.4.1 SolrCore 1.4.2 CoreContainer 1.4.3 IndexSchema 1.4.4 S...原创 2016-11-03 11:02:29 · 507 阅读 · 0 评论 -
solr高亮功能
高亮功能,一直是全文检索框架必备的一个功能,大大提高了用户界面的友好性,散仙在前面基于lucene的文章里,已经写过关于lucene中的高亮实现,那么,今天呢,我们就来看下如何使用solrj在solr中实现关键字高亮? solr不愧是封装了lucene的企业级搜索引用,所有功能的实现都非常简单明了,在solr中关于高亮的实现一般有2种方式,第一种基于xml配置的方式,只需配置solrconif...原创 2016-11-03 11:03:01 · 204 阅读 · 0 评论 -
solrcloud的分布式集群方案
分布式环境下,由于高并发的问题,通常我们需要部署多台服务器来负载均衡,从而避免,单点访问的热点问题,或者因负载过高而造成服务器瘫痪的问题等等。 solr4.x之后推出了solrcloud的分布式集群方案,与4.x之前的Master/Slave集群模式,架构上发生了重大变化,solrcloud不仅仅解决了,高并发的负载均衡问题,也解决了海量数据的检索性能问题,对一份巨大的索引,采用分而治之的方法...原创 2016-11-03 11:05:56 · 122 阅读 · 0 评论 -
solr搭建一个基于eclipse的源码环境
为了能够更好,更方便的研究solr,我们在进阶阶段可能有时候需要读读源码了,以便于更加清晰的了解solr的运行原理和调试的具体步骤,solr是和lucene同步发版的,目前的最新的版本,是在2014年4月1日发布的4.7.1的版本,那么本篇呢,散仙就以最新版本的solr,来演示一下搭建一个基于eclipse的源码环境,方便日后查看源码所需。 首先我们的基本的环境是JDK已经装好并且...原创 2016-11-03 11:06:28 · 130 阅读 · 0 评论 -
Solr作为一个Web应用,可以部署在多种应用服务器
Lucene和Solr这段时间,更新十分迅速,写此篇文章之时,最新的版本已经是4.8了,这几个小的版本发布几乎每隔一个月,都会发布一个,小版本一般都是beta版本,不太稳定,用来测试还行,线上环境不建议升级,等Lucene5.0和Solr5.0的版本发布,将会有一个大的改善和提升,让我们一起期待吧! 当我们下载完一个Solr时,此刻,我们想要做的第一件事,就是迫不及待的需要部署它,直到看到它的...原创 2016-11-04 15:29:04 · 256 阅读 · 0 评论 -
Directory家族的层级分布图
从源码的角度来分析下Lucene的根基Directory的实现,在此之前,我们先来看下Directory家族的层级分布图。 从上图中,我们可以看出Directory共有11个直接或者间接的子类,不同的子类的作用和功能不一样,那么Directory作为此继承图的顶级父类,在Lucene中确实发挥重要的根基作用,就像Hadoop的根基是HDFS一样,Directory肩负着索引存储的重任,如果没有...原创 2016-11-04 15:37:14 · 285 阅读 · 0 评论 -
因为多个jar可能记录日志信息时,日志模块,不知道需要用那个jar包
今天在用solr4.3和web项目结合的时候,出了一个莫名的异常就是,我无论用solrj向solr服务添加数据,总是报如下的一个异常 Java代码 六月 18, 2013 8:33:12 下午 org.apache.solr.client.solrj.impl.HttpClientUtil createClient 信息: Creating new http c...原创 2016-11-07 15:12:44 · 241 阅读 · 0 评论 -
Lucene里面支持join操作
对于用惯数据库的我们,多表进行join连接,是非常常见的一个需求,但是在我们的索引中,对join的支持,却不是很完美,当然这并不是由于我们的Lucene或Solr不够强大,而是全文检索与数据库的定位不是在同一个目标上,全文检索,主要定位在搜索引擎上,通常是对一个大的索引进行高效检索,而数据库则是定位在结构化数据的存储于与检索,检索功能比较薄弱,那我们的索引是不是就不支持join了,实事并非如此...原创 2016-11-07 15:16:32 · 228 阅读 · 0 评论 -
solr 4.2的入门配置
solr 4.2的入门配置 第一步,从官网上下载下 http://lucene.apache.org/solr/solr 4.2的压缩包 第二步,假如D:/tomcat D盘下有tomcat 第三步, 从下载的solr包下面的dist目录下solr.war包,拷贝到D:\tomcat6\apache-tomcat-6.0.36.0\webapps下面 第四步, 从下载的solr包下...原创 2016-11-07 15:24:12 · 165 阅读 · 0 评论 -
shell脚本一键安装solr
关于在shell中,如何一键安装ant和maven,本篇博客我们来看下如何使用shell脚本一键安装solr,并启动! solr最新的压缩包:Java代码 solr-4.10.0.tgz solr-4.10.0.tgz要求如下: 1,在/root根目录下下载有solr的压缩包,散仙本次的例子是是solr最新的版本 2,在shell脚本里面需要提前配...原创 2016-11-07 15:24:35 · 242 阅读 · 0 评论 -
solr原子更新功能
solr4.x发布以后,最值得人关注的一个功能,就是原子更新功能,传说的solr是否能真正的做到像数据库一样,支持单列更新呢? 在solr官方的介绍中,原子更新是filed级别的更新,不会涉及整个Documnet级别的更新,但事实真是如此吗,经散仙验证,并非如此,原子更新这种功能,在Lucene层面上,就否定了这种方式,因为是索引存储结构,决定了它的更新方式,在Lucene中我们想更新一条数据...原创 2016-11-07 15:25:15 · 335 阅读 · 0 评论 -
Elasticsearch 合理内存分配
Elasticsearch默认安装后设置的内存是1GB,对于任何一个业务部署来说,这个都太小了。如果你正在使用这些默认堆内存配置,你的集群配置可能有点问题。这里有两种方式修改Elasticsearch的堆内存(下面就说内存好了),最简单的一个方法就是指定ES_HEAP_SIZE环境变量。服务进程在启动时候会读取这个变量,并相应的设置堆的大小。举例,你可以用下面的命令设置它export ...原创 2016-11-08 12:08:34 · 118 阅读 · 0 评论