spark学习笔记
鸡蛋壳1.7
一条菜狗
展开
-
Spark学习笔记(二)RDD
1.Spark对数据对核心抽象RDD RDD:不可变对分布式对象集合,被分为多个分区,运行在不同节点上 创建方式:读取外部数据集;driver程序中分发driver程序的对象集合(如list和set) 2.RDD支持的操作:转化操作和行动操作 转化操作:将一个RDD转化成新的RDD 行动操作:对RDD计算出一个结果,并返回到driver程序,或存储到外部存储系统(如hdfs等) 区别:转化操作惰性计算RDD,而行动操作时才会真正计算,数据规模大,节省了很多存储空间 程序上区别: 转化操作返回的是RDD,而行原创 2020-12-16 09:50:08 · 245 阅读 · 0 评论 -
Spark学习笔记(一)基础概念
1.Spark Spark是一个用于实现快速而通用的集群计算平台 Spark使用内存进行计算,只读取一次,大量的迭代工作放入内存,所以Spark内存开销大,速率也快 计算模型:MapReduce(速度快) 2.MapReduce(key-value) MapReduce 主要包含三个功能:map、group by、reduce map:对读取的文件进行逐个扫描,并获取我们所需要的数据 group by:根据一定的规则进行排序 reduce:数据的聚合、合并等处理 3.RDD(开发中的主体) 弹性分布式数据集原创 2020-12-15 10:58:52 · 142 阅读 · 0 评论