自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 spark集群安装部署(spark on yarn)

spark集群安装部署(spark on yarn)1.前提已经部署了Hadoop 2.2集群2.下载并安装scala2.1下载scalahttp://www.scala-lang.org/download/2.2安装scalamkdir   -p    /usr/local/myspark/scalacd    /opttar

2015-01-17 17:35:03 769

原创 spark应用程序开发

应用程序开发1.将spark的jar加入到项目的lib中,并加入到项目的classpath中依赖spark-core org.apache.spark spark-core_2.10 1.0.2如果操作hdfs的话,还依赖hdfs org.apache.hadoop hadoop-

2015-01-17 14:04:50 765

翻译 Spark架构图

Spark架构图

2015-01-17 13:49:00 1039

翻译 Spark的核心概念

spark的一些核心概念Application   构建在spark上的应用程序,由driver program 和集群上的executor组成。是SparkContext的实例。每一个Application都运行在一组独立的Executor进程上。Application jar  包含spark应用程序的jar。有时候用户需要创建一个包含其应用程序和其依赖的jar。该jar不包含

2015-01-17 13:46:27 736

翻译 SolrCloud架构整理

1.总体架构2.内部结构3.shard结构4.索引的创建分布式索引的过程如下:1.用户可以把创建文档索引的请求提交给任一个Replica或Leader2.如果它不是Leader,它会把请求转交给和自己同Shard的Leader3.Leader把文档路由给本Shard的每个Replica,各自做索

2015-01-17 12:32:49 2974

原创 Lucence的各种查询

package org.adv.lucene.util;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.

2015-01-17 01:04:25 601

原创 Lucence自定义评分查询

package org.adv.lucene.util;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.lucene.document.Document;import org.apache.lucene.ind

2015-01-17 00:43:23 722 1

原创 Lucence自定义查询解析器

package org.adv.lucene.util;import java.text.SimpleDateFormat;import java.util.regex.Pattern;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.queryparser.classic.Par

2015-01-17 00:38:38 683 1

原创 Lucence自定义过滤器查询

package org.adv.lucene.util;import java.io.IOException;import java.text.SimpleDateFormat;import org.apache.lucene.document.Document;import org.apache.lucene.index.CorruptIndexException

2015-01-17 00:32:23 562 1

原创 基于Lucence的同义词分词器

package org.lucene.util;import java.io.Reader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.Tokenizer;

2015-01-17 00:23:14 721

原创 Lucence自定义分词器

package org.lucene.util;import java.io.Reader;import java.util.Set;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.a

2015-01-17 00:14:16 579

原创 输出Lucence的分词信息

package org.lucene.util;import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.

2015-01-17 00:04:54 449

原创 Lucence搜索实例

package org.test.searcher;import java.io.File;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.HashMa

2015-01-16 23:54:11 572 1

原创 Lucence创建索引实例

package org.test.index;import java.io.File;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.HashMap;

2015-01-16 23:49:12 666

原创 Lucence入门实例

package org.test.lucence;import java.io.File;import java.io.FileReader;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene

2015-01-16 23:43:38 473

翻译 Elastic架构图

2015-01-16 23:26:52 1098

原创 增加elasticsearch-head

增加elasticsearch-head1.下载https://github.com/mobz/elasticsearch-head2.安装2.1以插件的形式安装    %ES_HOME%/bin/plugin -install mobz/elasticsearch-head   访问  http://localhost:9200/_plug

2015-01-16 14:31:37 1438

原创 为elastic添加中文分词

添加中文分词可以直接使用配置好的es中文版:https://github.com/medcl/elasticsearch-rtf可以可以自己集成中文分词组件,medcl为es写了三个中文分词插件,一个是ik的,一个是mmseg的,一个是pinyin4j的。下面介绍这三个插件与es的集成:1.ik与es的集成1.1下载https://github.com/medcl/elas

2015-01-16 14:26:51 6127

原创 elastic客户端开发

es客户端开发1.将%ES_HOME%/lib目录下的jar包加入到项目的CLASSPATH中2.代码实例package org.test.es;import java.io.IOException;import java.util.Date;import java.util.Map;import java.util.Set;im

2015-01-16 14:09:00 1154

原创 elasticsearch集群的部署

elasticsearch集群的部署1.部署4个节点的elasticsearch10.41.2.84     es210.41.2.85     es310.41.2.86     es42.集群配置2.1配置10.41.2.84上的esvi   /usr/local/search/elasticsearch-1.3.1/config/elasticse

2015-01-16 14:04:13 7455

原创 elastic单节点安装部署

elastic单机安装部署:1.安装Java7注意设置环境变量JAVA_HOME2.下载http://www.elasticsearch.org/overview/elkdownloads/3.解压安装解压elasticsearchmkdir   -p    /usr/local/searchcp   /opt/ela

2015-01-16 13:42:36 2834

原创 solr客户端程序开发

使用solrj开发solr的java客户端程序注意:每个document中必须有一个id的field,id为string类型的。id一样时,后面加入的document会覆盖前面的document。id是document的唯一主键,当多次添加的时候,最后添加的相同id的域会覆盖前面的域document中的各个field可以在solr的schema.xml(%SOLR_HOME%/conf/s

2015-01-15 18:19:30 907

原创 solrCloud配置目录结构

solrCloud配置目录结构1.目录结构solr服务器目录结构:---solr_home_dir------solr.xml--------- core_name--------- --- conf/--------- --- --- schema.xml--------- --- ---  solrconfig.xml--------- ---data/

2015-01-15 18:15:12 857

原创 添加中文分词(mmseg4j)

添加中文分词(mmseg4j)1.下载mmseg4jhttp://code.google.com/p/mmseg4j/2.下载sogou的中文词库http://www.sogou.com/labs/dl/w.html3.将中文分词的jar包拷贝到solr的server的lib目录下3.1由于mmseg4j-1.9.1与solr4.9结合时有一个小bug,需要

2015-01-15 18:10:27 721

原创 solrCloud分布式集群安装配置

solrCloud分布式集群安装配置1.前提安装Zookeeper集群2.安装部署多个solr节点10.41.2.8210.41.2.8310.41.2.8410.41.2.86mkdir  -p   /usr/local/searchscp   -r    10.41.2.82:/usr/local/search/solr          /

2015-01-15 18:03:57 1502

原创 solr安装(solr与tomcat整合)

solr安装(solr与tomcat整合)1.前提1.1安装JDK7,并配置环境变量JAVA_HOMEjava  -versionjavac  -version1.2安装tomcat71.2.1下载http://tomcat.apache.org/http://tomcat.apache.org/1.2.2安装mkdir  -p   /u

2015-01-15 18:01:46 463

翻译 Lucence索引的存储

Lucence存储索引的文件目录,包含若干文件,其存储的内容说明如下:*.frm:保存域的信息*.fdx,*.fdt:保存域的值,保存存储选项为YES的数据*.frq:出现次数,用来做评分和排序的*.nrm:存储评分信息*.prx:存储偏移量*.tii,*.tis:存储索引里面所有内容信息的segment:存储索引段*.del:存储删除的文档索引

2015-01-15 17:20:05 642

翻译 Lucence的Field属性整理

Field属性1.存储选项Field.Store.YES表示会把这个域中的内容完全存储到索引文件中,方便进行域内容的还原Field.Store.NO表示这个域的内容不会存储到索引文件中,但是可以被索引,此时该域的内容无法完全还原2.分词选项Field.Index.ANALYZED:表示对域进行分词和索引,使用于标题,内容等域Field.Index.NOT_A

2015-01-15 17:15:41 499

原创 近实时搜索

近实时搜索    也可以称为内存搜索    创建的索引还没有提交,存放在内存中,也能被搜索到。    实际项目中,创建的索引不会立马提交的,因为commit操作需要flush到文件,磁盘IO很耗性能,所以一般会隔一段时间提交一次索引。这样IndexReader所读取到的索引库可能不是最新的,故搜索不到最新的内容。近实时搜索就是用于解决这个问题的    具体做法是:通过IndexWr

2015-01-15 17:04:28 397

原创 Lucence(Index,Searcher,Analyzer)技术原理整理

Lucence技术原理整理

2015-01-15 15:48:51 696

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除