大数据与分布式
文章平均质量分 91
__WILL
努力!
展开
-
spark核心术语和运行流程
Application:Application是创建了SparkContext实例对象的Spark用户,包含了Driver程序SparkContextSparkContext是Spark的入口,负责连接Spark集群,创建RDD,累积量和广播量等。从本质上来说,SparkContext是Spark的对外接口,负责提供Spark的各种功能。class SparkContext的定义: class原创 2016-01-30 14:31:51 · 379 阅读 · 0 评论 -
spark 常用python API
1.概述转换动作2.实例2.1转换map(f, preservesPartitioning=False)根据闭包函数f将RDD[T]映射成RDD[U],RDD元素和分区数不变。1->1>>> rdd = sc.parallelize(["b", "a", "c"])>>> sorted(rdd.map(lambda x: (x, 1)).collect())[('a', 1), ('b', 1)原创 2016-01-30 14:33:53 · 616 阅读 · 0 评论