spark概述
文章平均质量分 79
颜渊月和F
这个作者很懒,什么都没留下…
展开
-
SPARK-Spark core(2)
Spark Core IIRDD 编程RDD含义与特点三级目录 RDD 编程 RDD含义与特点 RDD: 是一个抽象类,代表一个不可变的、可分区的、里面的元素可并行计算的集合。是spark的核心概念,是一个容错的、可以并行执行的分布式数据集 RDD包含5个特征: 1)一个分区的列表 2)一个计算函数compute,对每个分区进行计算 3)对其他RDD的依赖(宽依赖、窄依赖)列表 4)对key-valueRDDs来说,存在一个分区器 5)对每一个分区有一个优先位置的列表(可选的) RDD的特点: 1)分区原创 2021-03-25 11:33:07 · 95 阅读 · 0 评论 -
SPARK---Spark Core(1)
Spark CoreSpark概述spark与MR比较spark系统架构spar安装部署 Spark概述 spark是一个快速、通用的计算引擎 spark特点: 速度快,使用简单、通用、兼容好 spark与MR比较 Map Reduce Spark 数据存储结构:磁盘HDFS文件系统的split 使用内存构建分布式数据集RDD对数据进行运算和cache 编程范式:Map+Reduce,仅有两个操作,表达能力欠缺 提供了丰富的操作,使数据处理逻辑大大简化 计算中间结果落到磁盘,IO原创 2021-03-23 15:12:21 · 1653 阅读 · 8 评论