cocoder-CSDN博客

原创 spark集群安装部署(spark on yarn)

spark集群安装部署(spark on yarn)1.前提已经部署了Hadoop 2.2集群2.下载并安装scala2.1下载scalahttp://www.scala-lang.org/download/2.2安装scalamkdir -p /usr/local/myspark/scalacd /opttar

2015-01-17 17:35:03 769

原创 spark应用程序开发

应用程序开发1.将spark的jar加入到项目的lib中，并加入到项目的classpath中依赖spark-core org.apache.spark spark-core_2.10 1.0.2如果操作hdfs的话，还依赖hdfs org.apache.hadoop hadoop-

2015-01-17 14:04:50 765

翻译 Spark架构图

Spark架构图

2015-01-17 13:49:00 1039

翻译 Spark的核心概念

spark的一些核心概念Application 构建在spark上的应用程序，由driver program 和集群上的executor组成。是SparkContext的实例。每一个Application都运行在一组独立的Executor进程上。Application jar 包含spark应用程序的jar。有时候用户需要创建一个包含其应用程序和其依赖的jar。该jar不包含

2015-01-17 13:46:27 736

翻译 SolrCloud架构整理

1.总体架构2.内部结构3.shard结构4.索引的创建分布式索引的过程如下：1.用户可以把创建文档索引的请求提交给任一个Replica或Leader2.如果它不是Leader,它会把请求转交给和自己同Shard的Leader3.Leader把文档路由给本Shard的每个Replica，各自做索

2015-01-17 12:32:49 2974

原创 Lucence的各种查询

package org.adv.lucene.util;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.

2015-01-17 01:04:25 601

原创 Lucence自定义评分查询

package org.adv.lucene.util;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import org.apache.lucene.document.Document;import org.apache.lucene.ind

2015-01-17 00:43:23 722 1

原创 Lucence自定义查询解析器

package org.adv.lucene.util;import java.text.SimpleDateFormat;import java.util.regex.Pattern;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.queryparser.classic.Par

2015-01-17 00:38:38 683 1

原创 Lucence自定义过滤器查询

package org.adv.lucene.util;import java.io.IOException;import java.text.SimpleDateFormat;import org.apache.lucene.document.Document;import org.apache.lucene.index.CorruptIndexException

2015-01-17 00:32:23 562 1

原创基于Lucence的同义词分词器

package org.lucene.util;import java.io.Reader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.Tokenizer;

2015-01-17 00:23:14 721

原创 Lucence自定义分词器

package org.lucene.util;import java.io.Reader;import java.util.Set;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.a

2015-01-17 00:14:16 579

原创输出Lucence的分词信息

package org.lucene.util;import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.

2015-01-17 00:04:54 449

原创 Lucence搜索实例

package org.test.searcher;import java.io.File;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.HashMa

2015-01-16 23:54:11 572 1

原创 Lucence创建索引实例

package org.test.index;import java.io.File;import java.io.IOException;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.HashMap;

2015-01-16 23:49:12 666

原创 Lucence入门实例

package org.test.lucence;import java.io.File;import java.io.FileReader;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene

2015-01-16 23:43:38 473

翻译 Elastic架构图

2015-01-16 23:26:52 1098

原创增加elasticsearch-head

增加elasticsearch-head1.下载https://github.com/mobz/elasticsearch-head2.安装2.1以插件的形式安装 %ES_HOME%/bin/plugin -install mobz/elasticsearch-head 访问 http://localhost:9200/_plug

2015-01-16 14:31:37 1438

原创为elastic添加中文分词

添加中文分词可以直接使用配置好的es中文版：https://github.com/medcl/elasticsearch-rtf可以可以自己集成中文分词组件，medcl为es写了三个中文分词插件，一个是ik的，一个是mmseg的，一个是pinyin4j的。下面介绍这三个插件与es的集成：1.ik与es的集成1.1下载https://github.com/medcl/elas

2015-01-16 14:26:51 6127

原创 elastic客户端开发

es客户端开发1.将%ES_HOME%/lib目录下的jar包加入到项目的CLASSPATH中2.代码实例package org.test.es;import java.io.IOException;import java.util.Date;import java.util.Map;import java.util.Set;im

2015-01-16 14:09:00 1154

原创 elasticsearch集群的部署

elasticsearch集群的部署1.部署4个节点的elasticsearch10.41.2.84 es210.41.2.85 es310.41.2.86 es42.集群配置2.1配置10.41.2.84上的esvi /usr/local/search/elasticsearch-1.3.1/config/elasticse

2015-01-16 14:04:13 7455

原创 elastic单节点安装部署

elastic单机安装部署：1.安装Java7注意设置环境变量JAVA_HOME2.下载http://www.elasticsearch.org/overview/elkdownloads/3.解压安装解压elasticsearchmkdir -p /usr/local/searchcp /opt/ela

2015-01-16 13:42:36 2834

原创 solr客户端程序开发

使用solrj开发solr的java客户端程序注意：每个document中必须有一个id的field，id为string类型的。id一样时，后面加入的document会覆盖前面的document。id是document的唯一主键，当多次添加的时候，最后添加的相同id的域会覆盖前面的域document中的各个field可以在solr的schema.xml（%SOLR_HOME%/conf/s

2015-01-15 18:19:30 907

原创 solrCloud配置目录结构

solrCloud配置目录结构1.目录结构solr服务器目录结构：---solr_home_dir------solr.xml--------- core_name--------- --- conf/--------- --- --- schema.xml--------- --- --- solrconfig.xml--------- ---data/

2015-01-15 18:15:12 857

原创添加中文分词(mmseg4j)

添加中文分词(mmseg4j)1.下载mmseg4jhttp://code.google.com/p/mmseg4j/2.下载sogou的中文词库http://www.sogou.com/labs/dl/w.html3.将中文分词的jar包拷贝到solr的server的lib目录下3.1由于mmseg4j-1.9.1与solr4.9结合时有一个小bug，需要

2015-01-15 18:10:27 721

原创 solrCloud分布式集群安装配置

solrCloud分布式集群安装配置1.前提安装Zookeeper集群2.安装部署多个solr节点10.41.2.8210.41.2.8310.41.2.8410.41.2.86mkdir -p /usr/local/searchscp -r 10.41.2.82:/usr/local/search/solr /

2015-01-15 18:03:57 1502

原创 solr安装（solr与tomcat整合）

solr安装（solr与tomcat整合）1.前提1.1安装JDK7,并配置环境变量JAVA_HOMEjava -versionjavac -version1.2安装tomcat71.2.1下载http://tomcat.apache.org/http://tomcat.apache.org/1.2.2安装mkdir -p /u

2015-01-15 18:01:46 463

翻译 Lucence索引的存储

Lucence存储索引的文件目录，包含若干文件，其存储的内容说明如下：*.frm：保存域的信息*.fdx,*.fdt：保存域的值，保存存储选项为YES的数据*.frq:出现次数，用来做评分和排序的*.nrm:存储评分信息*.prx:存储偏移量*.tii,*.tis:存储索引里面所有内容信息的segment:存储索引段*.del：存储删除的文档索引

2015-01-15 17:20:05 642

翻译 Lucence的Field属性整理

Field属性1.存储选项Field.Store.YES表示会把这个域中的内容完全存储到索引文件中，方便进行域内容的还原Field.Store.NO表示这个域的内容不会存储到索引文件中，但是可以被索引，此时该域的内容无法完全还原2.分词选项Field.Index.ANALYZED:表示对域进行分词和索引，使用于标题，内容等域Field.Index.NOT_A

2015-01-15 17:15:41 499

原创近实时搜索

近实时搜索也可以称为内存搜索创建的索引还没有提交，存放在内存中，也能被搜索到。实际项目中，创建的索引不会立马提交的，因为commit操作需要flush到文件，磁盘IO很耗性能，所以一般会隔一段时间提交一次索引。这样IndexReader所读取到的索引库可能不是最新的，故搜索不到最新的内容。近实时搜索就是用于解决这个问题的具体做法是：通过IndexWr

2015-01-15 17:04:28 397

原创 Lucence(Index,Searcher,Analyzer)技术原理整理

Lucence技术原理整理

2015-01-15 15:48:51 696

dingzfang的专栏