- 博客(2)
- 收藏
- 关注
原创 Spark期末知识合集
RDD 是一个容错的、只读的、可进行并行操作的数据结构,是一个分布在集群各个节点中的存放元素的集合。RDD有3种不同的创建方法。第一种是将程序中已存在的 Sea 集合(如集合、列表、数组)转换成RDD,第二种是对已有RDD 进行转换得到新的RDD,这两种方法都是通过内存中已有的数据创建RDD 的。第三种是直接读取外部存储系统的数据创建 RDD。
2024-05-12 18:28:11 611
原创 刘亦菲,彭于晏快进来看看如何在最短时间内理解Spark
(1)Spark是一种快速、通用、可扩展的大数据分析引擎计算引擎。这一站式的计算框架,包含了Spark RDD(这也是Spark Core用于离线批处理)、Spark SQL(交互式查询)、Spark Streaming(实时流计算)、MLlib(机器学习)、GraphX(图计算)等重要处理组件。
2024-03-04 17:37:42 945 5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人