自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

写博客只为学习

Just for study

原创 Spark shuffle实现详细探究学习

[size=medium][b]Background[/b][/size] 在MapReduce框架中,[color=red][b]shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能...

2017-04-28 15:08:58

阅读数 22

评论数 0

原创 Spark shuffle实现详细探究学习

能高低直接影响了整个程序的性能和吞吐量。[/b][/color]Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop MapReduce的shuffle有什么不同。 [size=m...

2017-04-28 15:08:58

阅读数 9

评论数 0

原创 Hadoop MapReduce处理wordcount代码分析

[code="java"] package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; import or...

2017-04-28 14:25:06

阅读数 20

评论数 0

原创 Hadoop MapReduce处理wordcount代码分析

th; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache....

2017-04-28 14:25:06

阅读数 8

评论数 0

原创 Spark collect和take函数学习(RDD-->Array)

[size=large][color=red][b]将RDD转成Scala数组,并返回。[/b][/color][/size] [size=medium][b]函数原型[/b][/size] [code="scala"] def collect()...

2017-04-27 15:44:06

阅读数 420

评论数 0

原创 Spark collect和take函数学习(RDD-->Array)

PartialFunction[T, U]): RDD[U] [/code] [size=medium][b]实例[/b][/size] [code="scala"]scala> val one: PartialFunction...

2017-04-27 15:44:06

阅读数 47

评论数 0

原创 Spark MLlib平台的协同过滤算法---电影推荐系统学习

rkContext, SparkConf} import org.apache.spark.SparkContext._ import scala.io.Source object MovieLensALS { def main(args:Array[String]) { ...

2017-04-27 15:33:48

阅读数 32

评论数 0

原创 Spark MLlib平台的协同过滤算法---电影推荐系统学习

[code="scala"]import org.apache.log4j.{Level, Logger} import org.apache.spark.mllib.recommendation.{ALS, MatrixFactorizationModel,...

2017-04-27 15:33:48

阅读数 53

评论数 0

原创 Spark parallelize函数和makeRDD函数的区别(Array-->RDD)

b](3)、从其他RDD创建。[/b][/color] 而从集合中创建RDD,[b]Spark主要提供了两中函数:parallelize和makeRDD[/b]。我们可以先看看这两个函数的声明: [code="scala"] def paralleli...

2017-04-27 14:56:34

阅读数 19

评论数 0

原创 Spark parallelize函数和makeRDD函数的区别(Array-->RDD)

我们知道,在Spark中创建RDD的创建方式大概可以分为三种: [b](1)、从集合中创建RDD;[/b] [color=red][b](2)、从外部存储创建RDD;[/b][/color] [color=blue][b](3)、从其他RDD创建。[/b][/color] 而从集合中创...

2017-04-27 14:56:34

阅读数 99

评论数 0

原创 Spark Streaming实时计算学习

2017-04-27 10:31:26

阅读数 33

评论数 0

原创 Spark Streaming实时计算学习

随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。[color=red][b]Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行...

2017-04-27 10:31:26

阅读数 49

评论数 0

原创 Hadoop YARN完全分布式配置学习

[size=medium][color=red][b]版本及配置简介[/b][/color][/size] [code="txt"]Java: JDK1.7.0_71 Hadoop: hadoop-2.5.2 Linux: centos6.4 64b...

2017-04-26 10:27:22

阅读数 33

评论数 0

原创 Hadoop YARN完全分布式配置学习

设三台机器IP如下:[/b][/color] [code="txt"]192.168.40.138 master 192.168.40.137 slave-1 192.168.40.136 slave-2[/code] [size=medium][c...

2017-04-26 10:27:22

阅读数 13

评论数 0

原创 Spark 集群的搭建学习(1.6.3)

2017-04-25 14:30:05

阅读数 25

评论数 0

原创 Spark 集群的搭建学习(1.6.3)

[size=medium][color=red][b]Spark是一个快速、通用的计算集群框架,它的内核使用Scala语言编写[/b][/color][/size],它提供了Scala、Java和Python编程语言high-level API,使用这些API能够非常容易地开发并行处理的应用程序。...

2017-04-25 14:30:05

阅读数 27

评论数 0

原创 Spark SQL简单示例学习

2017-04-25 14:17:14

阅读数 7

评论数 0

原创 Spark SQL简单示例学习

[size=medium][color=red][b]Spark SQL 作为Apache Spark大数据框架的一部分,主要用于结构化数据处理和对Spark数据执行类SQL的查询。[/b][/color][/size]通过Spark SQL,可以针对不同格式的数据执行ETL操作([b]如JSON...

2017-04-25 14:17:14

阅读数 22

评论数 0

原创 Hadoop YARN各个组件和流程的学习

[size=x-large][color=red][b]一、基本组成结构[/b][/color][/size] * 集群唯一的ResourceManager [color=red][b]* 每个任务对应的ApplicationMaster[/b][/color] * 每个机器节点上的No...

2017-04-24 19:04:40

阅读数 24

评论数 0

原创 Hadoop YARN各个组件和流程的学习

的NodeManager [color=blue][b]* 运行在每个NodeManager上针对某个任务的Container[/b][/color] [size=large][b]1. ResourceManager[/b][/size] [color=blue][b]负责对各个 ...

2017-04-24 19:04:40

阅读数 16

评论数 0

提示
确定要删除当前文章?
取消 删除