Spark
我想写代码!!
这个作者很懒,什么都没留下…
展开
-
SparkCore
SparkCore总结 1. RDD 1.1定义: ··········1.1.1数据集:存储数据的计算逻辑 ··········1.1.2分布式:数据的来源&计算都是分布式的 ··········1.1.3弹性: ································血缘(依赖关系):Spark可以通过特殊的处理方案简化依赖关系 ························...原创 2019-11-20 22:53:19 · 118 阅读 · 0 评论 -
RDD概述
什么是RDD? RDD叫做弹性分布式数据集,是Spark中基本的数据抽象,代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面元素可并行计算的集合。 一、我相信大家最疑惑的就是“什么是弹性分布式数据集”弹性就是: 存储的弹性:内存与磁盘的自动切换 容错的弹性:数据丢失可以自动恢复 计算的弹性:计算出错重试机制 分片的弹性:可根据需要重新分片。 二、什么是不可变: 简单来说就是创建一个RDD如...原创 2019-11-19 21:28:01 · 610 阅读 · 0 评论