spark
文章平均质量分 86
1只筷子
这个作者很懒,什么都没留下…
展开
-
Spark(四)共享变量与数据写出
共享变量1.通常,当在远程集群节点上执行传递给Spark操作(例如map或reduce)的函数时,如果这些function需要用到Driver中定义的变量,spark会将这些定义在Driver中的变量拷贝到所有的worker节点,并且这些变量的修改的值并不会传递回来给Driver定义的变量。这样看来通常跨任务的读写共享变量效率不高,但是,Spark确实为两种常见的使用模式提供了两种有限类型的共享...原创 2020-02-23 20:49:11 · 279 阅读 · 0 评论 -
Spark RDD Operations(操作)转换算子与动作算子
RDD支持两种类型的操作: transformations-转换算子,将⼀个已经存在的RDD转换为一个新的RDD,另外⼀种称为actions-动作算子 ,动作算子一般在执行结束以后,会将结果返回给Driver。在Spark中所有的transformations都是lazy的,所有转换算子并不会立即执行,它们仅是记录对当前RDD的转换逻辑。仅当 Actions 算子要求将结果返回给Driver程...原创 2020-02-23 19:20:10 · 725 阅读 · 0 评论 -
Spark RDD创建API mysql Hbase
总体上看Spark,每个Spark应用程序都包含一个Driver,该Driver程序运行用户的main方法并在集群上执行各种并行行操作。Spark提供的主要抽象概念,是弹性分布式数据集(RDD resilient distributeddataset),它是 跨集群 分的元素的集合,可以并行操作。RDD可以通过从Hadoop文件系统(或任何其他Hadoop支持的文件系统)中的文件或驱动程序...原创 2020-02-23 18:22:27 · 140 阅读 · 0 评论 -
Spark概述与环境搭建(yarn|Standlone)
概述Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于 DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给 集群计算节点 处理。MapReduce VS SparkMapReduce作为第一代大数据处理框架,在设计初...原创 2020-02-18 09:25:37 · 201 阅读 · 0 评论