大数据-SparkRDD
汪本成
这个作者很懒,什么都没留下…
展开
-
Spark重要概念
(1)Spark运行模式目前最为常用的Spark运行模式有:- local:本地线程方式运行,主要用于开发调试Spark应用程序 - Standalone:利用Spark自带的资源管理与调度器运行Spark集群,采用Master/Slave结构,为解决单点故障,可以采用ZooKeeper实现高可靠(High Availability,HA)- Apache Mesos :运原创 2016-06-09 23:58:14 · 645 阅读 · 0 评论 -
spark中的partition和block的关系
今天写代码写到用rdd.cartesion(RDD),就查看了下源码部分,涉及到了partition,就整理了这块的知识点,大家可做参考hdfs中的block是分布式存储的最小单元,类似于盛放文件的盒子,一个文件可能要占多个盒子,但一个盒子里的内容只可能来自同一份文件。假设block设置为128M,文件是250M,那么这份文件占3个block(128+128+2)。这样的设计虽然会原创 2016-06-26 17:02:35 · 4233 阅读 · 1 评论 -
rdd的join使用
代码如下package rddimport org.apache.spark.{SparkContext, SparkConf}/** * Created by 汪本成 on 2016/7/2. */object rddJoin { def main(args: Array[String]) { val conf = new SparkConf().setAp原创 2016-07-02 22:49:21 · 4677 阅读 · 0 评论 -
什么是SparkDAG
对于DAG这个概念现在很多上面都有所应用概念在spark里每一个操作生成一个RDD,RDD之间连一条边,最后这些RDD和他们之间的边组成一个有向无环图,这个就是DAG。在spark的应用Spark内核会在需要计算发生的时刻绘制一张关于计算路径的有向无环图,也就是DAG。有了计算的DAG图,Spark内核下一步的任务就是根据DAG图将计算划分成任务集,也就是Stage,这样可原创 2016-06-23 00:39:12 · 8113 阅读 · 0 评论 -
进行SparkRDD各类操作----SparkMllib操作基础
就问大家什么最重要,那就是基础,这次分享的是平常我们易忽略的基础知识,RDD的各种灵活变换和操作,为了方便大家理解,我这里就写的很简单,但是大家可以从中领会他的灵活之处,就算我们以后做流式计算还是机器学习都会和肯定大部分需要的是他,这里大概我就直接代码实践给大家看,我们毕竟是追究程序的package rddimport org.apache.log4j.{Level,原创 2016-08-02 19:35:46 · 1354 阅读 · 0 评论