Druid在Hadoopindex的时候异常

Caused by: com.google.inject.CreationException: Unable to create injector, see the following errors: 1) An exception was caught and reported. Messag...

2019-03-10 23:00:25

阅读数 16

评论数 0

druid.io在安装过程出现元数据库异常问题

在我们启动coordinator的时候用来刷新元数据库,但是发现出现表刷入失败,可以在日志里查看到字符编码问题 可以使用mysql的修改字符编码,这个地方和官网的字符编码有点不一样 ALTER DATABASE druid DEFAULT CHARACTER SET utf8 COLLATE ut...

2019-02-26 00:43:07

阅读数 24

评论数 0

SparkContext原理解析和源码解析

SparkContext主要介绍下面几个点 TaskScheduler DAGScheduler SparkUI 环境是spark1.6.3 TaskScheduler初始化机制 createTaskScheduler() ->TaskSchedulerImpl-&am...

2019-01-27 23:01:52

阅读数 58

评论数 0

Spark内核架构解析

本文主要介绍了spark运行的大概流程。已经每个组件大概做了什么工作 1、Spark-submit提交的时候有多种方式,其实会通过反射的方式,创建和构造一个DriverActor进程出来 2、在构造SparkContext的时候,构造出DAGScheduler和TaskScheduler 3、D...

2019-01-24 23:32:13

阅读数 48

评论数 0

Spark中topN和groupTopn讲解

Spark中topN和groupTopn讲解说谎和沉默可以说是现在人类社会里日渐蔓延的两大罪恶。事实上,我们经常说谎,动不动就沉默不语。——村上春树本文主要介绍了Spark中去topN的操作和分组取topN的操作topN的实现思路:1、首先我们需要采用PairRDD的方式来存储数据对象,PairR...

2019-01-14 01:26:25

阅读数 74

评论数 0

Spark二次排序的操作

二次排序原理 二次排序就是首先按照第一字段排序,然后再对第一字段相同的行按照第二字段排序,注意不能破坏第一次排序的结果 例如输入这样的文件, xlucas1 18 aa xlucas2 18 bb xlucas 19 cc aa 20 xlucas aa 17 xlucas xlucas1 17 ...

2019-01-03 00:24:31

阅读数 57

评论数 0

Spark排序--交换排序

之前我们写过简答的worldcount统计的代码,但是我们如何做到按照value来排序呢?? 伪代码如下 // 执行我们之前做过的单词计数 JavaRDD<String> lines=line.flatMap(new FlatMa...

2018-12-28 23:32:05

阅读数 72

评论数 0

Spark共享变量

        Spark一个非常重要的特性就是共享变量。默认情况下,如果在一个算子的函数...

2018-12-24 00:51:11

阅读数 70

评论数 0

RDD持久化原理

          Spark非常重要...

2018-12-23 23:40:08

阅读数 73

评论数 0

Spark中Action的讲解

主要讲解一下 reduce,collect,count,take,saveAsTextFile,countByKey reduce讲解 // 使用reduce操作对集合中的数字进行累加 // reduce操作的原理: // 首先将第一个和第二个元素...

2018-12-22 00:06:41

阅读数 56

评论数 0

Spark中Transformation的讲解

主要讲解一下 map,filter,flatMap,groupByKey,reduceByKey,sortByKey,join,cogroup map讲解 List<Integer> list= Arrays.asList(1,2,...

2018-12-21 00:27:22

阅读数 54

评论数 0

创建RDD创建方式

RDD的创建方式 1、集合创建RDD 2、使用本地文件创建RDD 3、使用HDFS文件创建RDD 集合创建RDD 1、如果要通过并行化集合来创建RDD,需要针对程序中的集合,调用SparkContext的parallelize()方法。Spark会将集合中的数据拷贝到集群上去,形成一个分布式的数据...

2018-12-17 01:05:59

阅读数 51

评论数 0

Spark本地worldcount详细讲解(Scala版本)以及流程

主要介绍Scala来写spark代码的流程 package com.xlucas import org.apache.spark.SparkConf import org.apache.spark.SparkContext /** * Created ...

2018-12-16 15:11:23

阅读数 85

评论数 1

Spark本地worldcount详细讲解(Java版本)

package com.xlucas; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; impor...

2018-12-12 23:37:44

阅读数 60

评论数 0

Spark核心编程原理

2018-12-11 23:54:05

阅读数 47

评论数 0

Flink部署-standalone模式

安装环境信息 flink-1.6.2-bin-hadoop27-scala_2.11.tgz hadoop-2.7.5 java 1.8 zookeeper 3.4.6 os:centos 6.4 1、下载 直接去flink的社区下载就可以了。http://flink.apache.org/do...

2018-11-30 00:07:41

阅读数 272

评论数 0

ES中搜索请求的讲解

ES中一个搜索请求是怎么流转的 1、搜索请求发送到某一个coordinate node,构建一个priority queue,长度以paging操作from和size为准,默认为10 2、coordinate node将请求转发到所有shard,每个shard本地搜索,并构建一个本地priorit...

2018-11-18 22:48:18

阅读数 124

评论数 0

Apache Flink介绍

什么是Flink Flink 它可以处理有界的数据集、也可以处理无界的数据集、它可以流式的处理数据、也可以批量的处理数据。所谓的无穷数据集就是我们日常中所说的实时数据,比如金融市场的实时交易记录,web的实时访问记录,所谓的有界数据集就是一些有限不会改变的数据集合,所以flink数据运算模型有流...

2018-11-16 23:53:07

阅读数 54

评论数 0

ES中scroll技术

如果一次性要查询出一大批的数据,那么性能会很差,此时一般采用scoll滚动查询,一批一批的查询,直到所有的数据查询完成 使用scoll滚动搜索,可以先搜索一批数据,然后下次再搜索一批数据,以此类推,直到搜索出全部的数据来 scoll搜索会在第一次搜索的时候,保存一个当时的视图快照,之后只会基于该旧...

2018-11-16 00:41:38

阅读数 98

评论数 0

ES分词算法

算法介绍 1、relevance score算法,就是计算出,一个索引中的文本,与搜索文本,他们之间的关联匹配程度 2、ES使用的是,term frequency/inverse document frequency算法,简称TF/IDF算法 3、term frequency:搜索文本中的各个词条...

2018-11-15 23:34:07

阅读数 199

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭