2018年03月_星辰学院

原创 spark学习系列——10 spark宽依赖和窄依赖

如何表现RDD之间的依赖。在RDD中将依赖划分成了两种类型：窄依赖(narrow dependencies)和宽依赖(wide dependencies)。窄依赖是指父RDD的每个分区都只被子RDD的一个分区所使用。相应的，那么宽依赖就是指父RDD的分区被多个子RDD的分区所依赖。例如，map就是一种窄依赖，而join则会导致宽依赖(除非父RDD是hash-partitioned，见下图)。具体例...

2018-03-26 19:37:43 420

原创 spark学习系列——9 spark共享变量

默认情况下，如果在一个算子的函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中。此时每个task只能操作自己的那份变量副本。如果多个task想要共享某个变量，那么这种方式是做不到的。Spark为此提供了两种共享变量，一种是Broadcast Variable（广播变量），另一种是Accumulator（累加变量）。Broadcast Variable会将使用到的变量，仅仅为每个...

2018-03-26 19:09:38 264

原创 spark学习系列——8 RDD持久化操作

1、概念RDD持久化将数据通过操作持久化（或缓存）在内存中是Spark的重要能力之一。当你缓存了一个RDD，每个节点都缓存了RDD的所有分区。这样就可以在内存中进行计算。这样可以使以后在RDD上的动作更快（通常可以提高10倍）。你可以对希望缓存的RDD通过使用persist或cache方法进行标记。它通过动作操作第一次在RDD上进行计算后，它就会被缓存在节点上的内存中。Spark的缓存具有容错性，...

2018-03-26 18:47:58 414

原创 spark学习系列——7 操作RDD

具体参见 http://spark.apache.org/docs/latest/rdd-programming-guide.html本篇博文主要针对各个算子进行实现，读者可以根据代码注释并参考上方链接进行学习。1、pom.xml文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache...

2018-03-21 20:04:32 259

原创 spark学习系列——6 Historyserver配置

1、说明sparkUI 只有在作业执行中才能从yarn界面看到状态，作业执行结束之后想要查看历史数据就必须配置Historyserver。2、配置方法如果spark记录下了一个作业生命周期内的所有事件，那么就会在该作业执行完成之后，我们进入其web ui时，自动用记录的数据重新绘制作业的web ui。有3个属性我们可以设置spark-defaults.confspark.eventLog.enab...

2018-03-20 19:47:23 798 1

原创 spark学习系列——5 spark submit

详细请参见：http://spark.apache.org/docs/latest/submitting-applications.html1、提交样板./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ ...

2018-03-20 19:44:10 389

原创 spark学习系列——4 spark standalone模式图解

此方式仅仅作为对于spark架构的了解，国内实际生产环境会使用yarn作为资源调度器。

2018-03-20 19:35:51 349

原创 spark学习系列——3 rdd介绍

1、RDD是Spark提供的核心抽象，全称为Resillient Distributed Dataset，即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）3、RDD通常通过Hadoop上的文件，即HDFS文件或者Hive表，来进行创建；有时也可以通过应用程序中的集...

2018-03-20 19:31:09 280

原创 spark学习系列——2 WordCount

经典的例子首先上传文件到hdfs，再启动spark-shell，进行计算[bdpos@BJHC-Client-18562 spark]$ hdfs dfs -mkdir /spark/input[bdpos@BJHC-Client-18562 spark]$ hdfs dfs -put ./README.md /spark/input[bdpos@BJHC-Client-18562 spark...

2018-03-20 19:26:39 570

原创 spark学习系列——1 spark四大特性

什么是sparkApacheSpark™ is a fast and general engine for large-scale data processing.四大特性1、Speed 速度快2、Ease of Use 容易使用3、Generality 通用性4、Runs Everywhere 多种运行方式参考官网介绍http://spark.apache.org/...

2018-03-20 19:04:12 425

原创 scala学习草稿

本篇博客纯属个人草稿，本着好读书不求甚解的态度，对于自己以往的学习进行简单的整理。博主会在文章开头写明大致脉络，欢迎指正错误，谢谢！文章目录1、安装scala与idea编辑器2、scala基础3、scala数据结构4、scala面向对象5、akka示例1、安装scala与idea编辑器操作简单，可自行百度2、scala基础2.1 声明变量object VariableTest { def ma...

2018-03-19 17:20:24 451

FisherWang_CN