自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

李玉志的博客

不积跬步,无以致千里;不积小流,无以成江河

  • 博客(7)
  • 收藏
  • 关注

原创 Spark Core(九)SparkContext创建过程与源码分析

SparkContext创建之创建TaskScheduler

2018-07-26 15:04:47 430

原创 Spark Core(八)窄依赖、款依赖

窄依赖 定义:窄依赖英文为Narrow Dependency。在Spark中,我们具体操作的是RDD数据,而RDD是由多个Partition组成的,所以实际上我们真正操作的是Partition上的数据。当我们操作Partition上的数据的时候无非是两种情况,一种是Translation和Action、这两种操作都会有一个RDD产生另一个RDD,我们管前一个RDD叫做父RDD,管后一个RDD叫...

2018-07-24 19:10:50 399

原创 Spark Core(七)共享变量、广播变量、累加器

共享变量 Spark是集群部署的,当我们Spark执行程序需要依赖于一个单独的成员变量,那么spark就会把这个变量发送到worker节点上的每个Executor下的所有对应的task中,如果共享变量很大,那么就会对网络开销比较大,影响作业的执行效率,所以就引入了广播变量和累加器的概念。 广播变量 累加器 ...

2018-07-18 17:50:04 299

原创 Spark Core(六)创建RDD、Transformation与Action、RDD的持久化

创建RDD 基于已有的数据集合并行化创建RDD 基于外部文件创建RDD 基于Hadoop文件系统创建RDD 基于数据库创建RDD

2018-07-12 20:56:05 398

原创 Spark Core(五)Spark粗粒度的架构原理

Spark内部组件 Driver:首先Driver是一个Spark节点中的一个驱动进程,它是负责执行我们开发代码中的main函数的一个进程,它负责执行开发人员编写的代码,根据代码来创建SparkContext、创建RDD,以及进行RDD的转化和算子操作。 Master Worker Executor Task ...

2018-07-10 21:08:59 615 1

原创 Spark Core(四)基本工作原理、RDD以及其特性、WoldCount程序剖析

Spark基本的工作原理里 分布式的:Spark加载的数据都是以分区的形式存储在各个节点上的,各个节点的分区组合在一起就是一个RDD,所以它是分布式的。 基于内存的:Spark在进行数据的转换或者计算的时候都是在内存中完成的,如果内存资源不够的话 ,那么它就会在磁盘中进行计算。 迭代计算 RDD: RDD是Spark提供的一种核心抽象,全称Resilient Distributed Da...

2018-07-04 23:32:57 847

原创 Hbase之Spark通过BlukLoad的方式批量加载数据到HBase中

BlukLoad 定义: 它是一种Hbase的批处理方式,可以提高效率,可作为优化的一部分。 在实际开发中,我们可能处理的数据量比较大,利用普通的Put来想Hbase中插入数据会降低程序的运行效率,所以Hbase为我们提供了批处理,向Hbase批量写入数据提高效率,在Hbase交互式命令行中,Hbase也提供了将数据批量插入到Hbase数据库中,命令行的批量插入原理就是先将文件转换成HFile...

2018-07-04 10:20:11 1282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除