![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SparkCore
文章平均质量分 58
Daringjw
接受挑战,就可以享受胜利的喜悦。
展开
-
spark共享变量
通常,Spark程序计算的时候,我们传递的函数是在远程集群节点上执行的,在函数中使用的所有变量副本会传递到远程节点,计算任务使用变量副本进行计算。这些变量被复制到每台机器上,对远程机器上的变量的更新不会返回driver程序。...原创 2021-01-16 23:26:48 · 121 阅读 · 0 评论 -
Spark编程核心抽象—RDD
什么是RDD?RDD 是Resilient Distributed Dataset的简称。它是Apache Spark的基本数据结构。它是一个不可变的对象集合,在集群的不同节点上进行计算。Resilient:即在RDD lineage(DAG)的帮助下具有容错能力,能够重新计算由于节点故障而丢失或损坏的数据分区。 Distributed:数据分布在多个节点上。 Dataset:表示所操作的数据集。用户可以通过JDBC从外部加载数据集,数据集可以是JSON文件、CSV文件、文本文件或数据库RDD的原创 2021-01-16 22:40:49 · 232 阅读 · 0 评论 -
SparkCore_spark安装启动测试
安装运行Spark Spark本身是用Scala编写的,并在Java虚拟机(JVM)上运行,因此在您的笔记本或集群上运行Spark,您所需要的只是安装Java环境。如果您想要使用Python API,您还需要一个Python解释器(版本2.7或更高版本)。如果你想使用R,你需要在你的机器上安装R语言环境。建议开始使用Spark: 在您的笔记本电脑上下载并安装Apache Spark。 下载Spark到本地 如果您想在本地下载并运行Spark,第一步是确保您的机器上安装了Ja..原创 2021-01-16 22:33:31 · 452 阅读 · 0 评论