大数据
浅梦深蓝
耐烦
展开
-
Apache Spark RDD介绍
1. RDD是什么? RDD 全称 Resilient Distributed Dataset,叫做弹性分布式数据集,是 Spark 中最基本的数据抽象,它代表了一个不可变、可分区、里面的元素可并行计算的集合。 Resilient :弹性,RDD 的数据是可以保存在内存或者磁盘中,所以是弹性的。 Distributed:对数据集内部的元素进行分布式存储,便于后期进行分布式计算。 DataSet:数据集合。 2. RDD 五大属性 A list of partitions partition(分原创 2020-08-20 18:13:36 · 435 阅读 · 0 评论 -
Apache Spark 内存计算框架简介
1. spark是什么? Apache Spark™ is a unified analytics engine for large-scale data processing. spark是针对于大规模数据处理的统一分析引擎 spark 是在Hadoop基础上的改进,基于map reduce算法实现的分布式计算框架,所以spark 拥有Hadoop MapReduce所具有的优点。 spark 不同于 MapReduce 的是 spark 的 Job中间输出和结果可以保存在内存中,从而不再需要读写HD原创 2020-08-20 17:14:55 · 590 阅读 · 0 评论