spark
it_liangsir
虚心学习,坚持不懈,,取长补短,融会贯通,必为高手!!!
展开
-
spark 中 宽依赖 和 窄依赖的 区别及优缺点
窄依赖与宽依赖的概述:rdd 中的--宽依赖---父RDD每个分区的数据可能被多个子RDD分区使用 ,子RDD分区通常对应所有的父RDD分区,这其中分为两种情况:1,一个父RDD的分区对应所有的子RDD的分区(没有core-patitioned过的join)2,一个父RDD分区对应非全部的的多个RDD分区(groupByKey)rdd中的--窄依赖---父RDD每个分区的只被子RDD的一个...原创 2018-06-29 17:58:02 · 6974 阅读 · 0 评论 -
创建DataFrame的三种方式
Spark创建DataFrame的三种方法跟关系数据库的表(Table)一样,DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。创建DataFrame有很多种方法,比如从本地List创建、从RDD创建或者从源数据创建,下面简要介绍创建DataFrame的三种方法。方法一,Spark中使用toDF函数创建Dat...转载 2018-08-17 22:26:17 · 7881 阅读 · 0 评论 -
Spark Transformation和Action算子速查表
Transformation算子Transformation算子 作用 map(func) 返回一个新的分布式数据集,其中每个元素都是由源RDD中每一个元素经过func函数转换得到的 filter(func) 返回一个新的数据集,其中包含的元素来自源RDD中元素经过func函数过滤后的结果(func函数返回true的结果) flatMap(func) 类似于...转载 2018-08-18 19:00:16 · 285 阅读 · 0 评论 -
Spark RDD使用详解5--Action算子
本质上在Actions算子中通过SparkContext执行提交作业的runJob操作,触发了RDD DAG的执行。 根据Action算子的输出空间将Action算子进行分类:无输出、 HDFS、 Scala集合和数据类型。无输出foreach对RDD中的每个元素都应用f函数操作,不返回RDD和Array,而是返回Uint。 图中,foreach算子通过用户自定义函数对每个数据项进...原创 2018-08-18 19:38:13 · 338 阅读 · 0 评论