![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
积极流年
这个作者很懒,什么都没留下…
展开
-
spark RDD&算子&依赖划分&stage
Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。 RDD 的基本概念 RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,...原创 2020-12-06 21:37:51 · 465 阅读 · 0 评论 -
spark on yarn 安装部署
准备下载spark,地址:http://spark.apache.org/downloads.html下载不带hadoop预编译环境的spark最新版本,好处是可以自由使用最新版本的hadoop下载hadoop,地址:https://hadoop.apache.org/releases.html1.基本环境配置[ec2-user@rcf-ai-datafeed-spark-prd-01 conf]$ cat /etc/hosts127.0.0.1 localhost localh...原创 2020-12-06 21:32:40 · 1136 阅读 · 0 评论