自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

FisherWang_CN

花正当春,人亦年少。

  • 博客(11)
  • 收藏
  • 关注

原创 spark学习系列——10 spark宽依赖和窄依赖

如何表现RDD之间的依赖。在RDD中将依赖划分成了两种类型:窄依赖(narrow dependencies)和宽依赖(wide dependencies)。窄依赖是指父RDD的每个分区都只被子RDD的一个分区所使用。相应的,那么宽依赖就是指父RDD的分区被多个子RDD的分区所依赖。例如,map就是一种窄依赖,而join则会导致宽依赖(除非父RDD是hash-partitioned,见下图)。具体例...

2018-03-26 19:37:43 420

原创 spark学习系列——9 spark共享变量

默认情况下,如果在一个算子的函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量,那么这种方式是做不到的。Spark为此提供了两种共享变量,一种是Broadcast Variable(广播变量),另一种是Accumulator(累加变量)。Broadcast Variable会将使用到的变量,仅仅为每个...

2018-03-26 19:09:38 264

原创 spark学习系列——8 RDD持久化操作

1、概念RDD持久化将数据通过操作持久化(或缓存)在内存中是Spark的重要能力之一。当你缓存了一个RDD,每个节点都缓存了RDD的所有分区。这样就可以在内存中进行计算。这样可以使以后在RDD上的动作更快(通常可以提高10倍)。你可以对希望缓存的RDD通过使用persist或cache方法进行标记。它通过动作操作第一次在RDD上进行计算后,它就会被缓存在节点上的内存中。Spark的缓存具有容错性,...

2018-03-26 18:47:58 414

原创 spark学习系列——7 操作RDD

具体参见 http://spark.apache.org/docs/latest/rdd-programming-guide.html本篇博文主要针对各个算子进行实现,读者可以根据代码注释并参考上方链接进行学习。1、pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache...

2018-03-21 20:04:32 259

原创 spark学习系列——6 Historyserver配置

1、说明sparkUI 只有在作业执行中才能从yarn界面看到状态,作业执行结束之后想要查看历史数据就必须配置Historyserver。2、配置方法如果spark记录下了一个作业生命周期内的所有事件,那么就会在该作业执行完成之后,我们进入其web ui时,自动用记录的数据重新绘制作业的web ui。有3个属性我们可以设置spark-defaults.confspark.eventLog.enab...

2018-03-20 19:47:23 798 1

原创 spark学习系列——5 spark submit

详细请参见:http://spark.apache.org/docs/latest/submitting-applications.html1、提交样板./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ ...

2018-03-20 19:44:10 389

原创 spark学习系列——4 spark standalone模式图解

此方式仅仅作为对于spark架构的了解,国内实际生产环境会使用yarn作为资源调度器。

2018-03-20 19:35:51 349

原创 spark学习系列——3 rdd介绍

1、RDD是Spark提供的核心抽象,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)3、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行创建;有时也可以通过应用程序中的集...

2018-03-20 19:31:09 280

原创 spark学习系列——2 WordCount

经典的例子首先上传文件到hdfs,再启动spark-shell,进行计算[bdpos@BJHC-Client-18562 spark]$ hdfs dfs -mkdir /spark/input[bdpos@BJHC-Client-18562 spark]$ hdfs dfs -put ./README.md /spark/input[bdpos@BJHC-Client-18562 spark...

2018-03-20 19:26:39 570

原创 spark学习系列——1 spark四大特性

什么是sparkApacheSpark™ is a fast and general engine for large-scale data processing.四大特性1、Speed 速度快2、Ease of Use 容易使用3、Generality 通用性4、Runs Everywhere 多种运行方式参考官网介绍http://spark.apache.org/...

2018-03-20 19:04:12 425

原创 scala学习草稿

本篇博客纯属个人草稿,本着好读书不求甚解的态度,对于自己以往的学习进行简单的整理。博主会在文章开头写明大致脉络,欢迎指正错误,谢谢!文章目录1、安装scala与idea编辑器2、scala基础3、scala数据结构4、scala面向对象5、akka示例1、安装scala与idea编辑器操作简单,可自行百度2、scala基础2.1 声明变量object VariableTest { def ma...

2018-03-19 17:20:24 451

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除