spark
浮舟沧海的水手
脚踏实地,虚怀若谷。
展开
-
DAGScheduler 源码走读
要理解DAGScheduler,首先就得了解RDD的生命周期。RDD是什么?且看它的全称 Resilient Distributed Datasets,弹性式分布数据集。没错,一个RDD就是一个数据集,而且这个数据集自带了很多方法,这些方法可分为两种:transformation 和 action。原创 2016-06-15 21:02:46 · 385 阅读 · 0 评论 -
深入理解RDD
RDD最基本的五个特征 RDD 即 Resilient Distributes Dataset, 是spark中最基础、最常用的数据结构。其本质是把input source 进行封装,封装之后的数据结构就是RDD,提供了一系列操作,比如 map、flatMap、filter等。input source种类繁多,比如hdfs上存储的文件、本地存储的文件,相应的 RDD的种类也有原创 2016-06-06 00:06:05 · 9430 阅读 · 0 评论 -
Spark2.0 + Hadoop2.7.2 + Centos7 集群部署<一>
Centos7 集群部署到官网下载 virtualbox安装文件 https://www.virtualbox.org/wiki/Downloads到官网下载centos7镜像文件 http://isoredirect.centos.org/centos/7/isos/x86_64/CentOS-7-x86_64-Everything-1511.iso原创 2016-09-18 22:37:00 · 1597 阅读 · 0 评论