![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 90
Sheenky
这个作者很懒,什么都没留下…
展开
-
Spark基础知识梳理
spark解决的问题:海量数据的计算,可以进行离线批处理以及实时流计算spark模块:sparkcore、SQL、流计算(SparkStreaming)、图计算(Graphx)、机器学习(MLib)spark特点:速度快、使用简单、通用性强、多模式运行spark运行模式本地模式集群模式云模式spark的运行角色MASTER:集群资源管理者(类同ResourceManager)worker:单机资源管理者(类同NodeManager)......原创 2022-08-13 16:34:30 · 1649 阅读 · 1 评论 -
Spark RDD简介以及算子使用大全
一、spark RDD(1)RDD简介RDD(Resilient Distributed Datasets),弹性分布式数据集,是分布式内存的一个抽象概念。RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。RDD具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。RDD是只读的、分区记录的集合。RDD只能基于在稳定物理存储原创 2022-06-28 14:48:23 · 1256 阅读 · 0 评论