大数据-Spark

最新推荐文章于 2023-11-10 16:49:55 发布

JP-Destiny

最新推荐文章于 2023-11-10 16:49:55 发布

阅读量184

点赞数

分类专栏：大数据文章标签： Spark Spark的完全分布式安装 Spark的伪分布式安装

本文链接：https://blog.csdn.net/javadestiny/article/details/94206702

版权

大数据专栏收录该内容

62 篇文章 1 订阅

订阅专栏

Spark

Apache Spark是一种快速通用的集群计算系统。它提供Java，Scala，Python和R中的高级API，以及支持通用执行图的优化引擎。它还支持一组丰富的更高级别的工具，包括Spark SQL用于SQL和结构化数据的处理，MLlib机器学习，GraphX用于图形处理和Spark Streaming

特点：速度快、支持多种语言、生态系统全、兼容Hadoop

Spark体系结构

在这里插入图片描述
执行过程

一个Wokrer有多个Executor。Executor是任务的执行者，按阶段（Stage）划分任务——>RDD

客户端：Driver Program提交任务到集群中

Spark伪分布式安装

（1）网站http://spark.apache.org/下载Spark
（2）创建Spark文件夹
（3）解压spark-2.4.3-bin-hadoop2.7.tgz压缩包

tar -xvzf spark-2.4.3-bin-hadoop2.7.tgz

（4）配置Spark的环境变量

（5）刷新配置

source /etc/profile

（6）修改conf/spark-env.sh.template的文件名

mv spark-env.sh.template spark-env.sh

（7）修改conf/spark-env.sh.template的文件名

move spark-env.sh.template spark-env.sh

（8）配置conf/spark-env.sh文件

export JAVA_HOME=/usr/local/java/jdk1.8.0_11
export SPARK_MASTER_HOST=hadoop1
export SPARK_MASTER_PORT=7077

（9）修改conf/slaves.template的文件名

mv slaves.template slaves

（10）配置conf/slaves文件

hadoop1

（11）启动Spark

./sbin/start-all.sh

Spark完全分布式安装

（1）网站http://spark.apache.org/下载Spark
（2）创建Spark文件夹
（3）解压spark-2.4.3-bin-hadoop2.7.tgz压缩包

tar -xvzf spark-2.4.3-bin-hadoop2.7.tgz

（4）配置Spark的环境变量

（5）刷新配置

source /etc/profile

（6）修改conf/spark-env.sh.template的文件名

mv spark-env.sh.template spark-env.sh

（7）修改conf/spark-env.sh.template的文件名

move spark-env.sh.template spark-env.sh

（8）配置conf/spark-env.sh文件

export JAVA_HOME=/usr/local/java/jdk1.8.0_11
export SPARK_MASTER_HOST=hadoop1
export SPARK_MASTER_PORT=7077

（9）修改conf/slaves.template的文件名

mv slaves.template slaves

（10）配置conf/slaves文件

hadoop1
hadoop2
hadoop3

（11）将spark文件发送到hadoop2和hadoop3下

（12）启动Spark集群

./sbin/start-all.sh

在这里插入图片描述
（13）输入网址http://192.168.138.130:8080/验证Spark

在这里插入图片描述
（14）启动spark-shell

./bin/spark-shell --master spark://hadoop1:7077

在这里插入图片描述

JP-Destiny

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录