2018年07月_666呀

原创 Spark Core（九）SparkContext创建过程与源码分析

SparkContext创建之创建TaskScheduler

2018-07-26 15:04:47 430

原创 Spark Core（八）窄依赖、款依赖

窄依赖定义：窄依赖英文为Narrow Dependency。在Spark中，我们具体操作的是RDD数据，而RDD是由多个Partition组成的，所以实际上我们真正操作的是Partition上的数据。当我们操作Partition上的数据的时候无非是两种情况，一种是Translation和Action、这两种操作都会有一个RDD产生另一个RDD，我们管前一个RDD叫做父RDD，管后一个RDD叫...

2018-07-24 19:10:50 399

原创 Spark Core（七）共享变量、广播变量、累加器

共享变量 Spark是集群部署的，当我们Spark执行程序需要依赖于一个单独的成员变量，那么spark就会把这个变量发送到worker节点上的每个Executor下的所有对应的task中，如果共享变量很大，那么就会对网络开销比较大，影响作业的执行效率，所以就引入了广播变量和累加器的概念。广播变量累加器 ...

2018-07-18 17:50:04 299

原创 Spark Core（六）创建RDD、Transformation与Action、RDD的持久化

创建RDD 基于已有的数据集合并行化创建RDD 基于外部文件创建RDD 基于Hadoop文件系统创建RDD 基于数据库创建RDD

2018-07-12 20:56:05 398

原创 Spark Core（五）Spark粗粒度的架构原理

Spark内部组件 Driver：首先Driver是一个Spark节点中的一个驱动进程，它是负责执行我们开发代码中的main函数的一个进程，它负责执行开发人员编写的代码，根据代码来创建SparkContext、创建RDD，以及进行RDD的转化和算子操作。 Master Worker Executor Task ...

2018-07-10 21:08:59 615 1

原创 Spark Core（四）基本工作原理、RDD以及其特性、WoldCount程序剖析

Spark基本的工作原理里分布式的：Spark加载的数据都是以分区的形式存储在各个节点上的，各个节点的分区组合在一起就是一个RDD，所以它是分布式的。基于内存的：Spark在进行数据的转换或者计算的时候都是在内存中完成的，如果内存资源不够的话，那么它就会在磁盘中进行计算。迭代计算 RDD： RDD是Spark提供的一种核心抽象，全称Resilient Distributed Da...

2018-07-04 23:32:57 847

原创 Hbase之Spark通过BlukLoad的方式批量加载数据到HBase中

BlukLoad 定义：它是一种Hbase的批处理方式，可以提高效率，可作为优化的一部分。在实际开发中，我们可能处理的数据量比较大，利用普通的Put来想Hbase中插入数据会降低程序的运行效率，所以Hbase为我们提供了批处理，向Hbase批量写入数据提高效率，在Hbase交互式命令行中，Hbase也提供了将数据批量插入到Hbase数据库中，命令行的批量插入原理就是先将文件转换成HFile...

2018-07-04 10:20:11 1282

李玉志的博客