大数据架构
文章平均质量分 87
记录大数据各个架构的一些知识
Silver Star
这个作者很懒,什么都没留下…
展开
-
【大数据】【Spark】Spark核心编程(一)RDD概述
Spark 框架在执行时,先申请资源,然后将应用程序的数据处理逻辑分解成一个一个的计算任务。由外部存储系统的数据集创建 RDD 包括:本地的文件系统,所有 Hadoop 支持的数据集,比如 HDFS、HBase等。➢ 不可变:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在新的 RDD 里面封装计算逻辑。RDD 是计算模型的封装,当需求中需要将多个计算模型进行组合时,就需要将多个 RDD 建立依赖关系。计算数据时,可以根据计算节点的状态选择不同的节点位置进行计算。...原创 2022-08-18 22:58:33 · 3644 阅读 · 3 评论 -
【大数据】【Spark】Spark运行架构
Spark 集群的独立部署环境中,不需要依赖其他的资源调度框架,自身就实现了资源调度的功能,所以环境中还有其他两个核心组件:Master 和 Worker,这里的 Master 是一个进程,主要负责资源的调度和分配,并进行集群的监控等职责,类似于 Yarn 环境中的 RM, 而Worker 呢,也是进程,一个 Worker 运行在集群中的一台服务器上,由 Master 分配资源对数据进行并行的处理和计算,类似于 Yarn 环境中 NM。在提交应用中,可以提供参数指定计算节点的个数,以及对应的资源。.....原创 2022-08-11 11:54:36 · 2549 阅读 · 20 评论 -
【大数据】【Spark】Spark入门
由于Spark程序的编写最好使用Scala语言,可参照博主以下Scala入门文章。原创 2022-08-04 22:26:23 · 625 阅读 · 3 评论 -
【大数据】【Spark】Spark概述
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。原创 2022-08-03 09:58:18 · 2867 阅读 · 4 评论