Apache Doris Spark Load快速体验之Spark部署（1）

最新推荐文章于 2024-02-29 15:40:35 发布

一臻数据

最新推荐文章于 2024-02-29 15:40:35 发布

阅读量1.1k

点赞数 4

分类专栏： Apache Doris 文章标签： apache spark 大数据

本文链接：https://blog.csdn.net/ith321/article/details/131878982

版权

Apache Doris 专栏收录该内容

45 篇文章 18 订阅

订阅专栏

Apache Doris Spark Load快速体验之Spark部署（1）

环境信息
- 硬件信息
- 软件信息
Spark介绍
Spark安装部署

环境信息

硬件信息

CPU ：4C
CPU型号：ARM64
内存：10GB
硬盘：66GB SSD

软件信息

VM镜像版本 ：CentOS-7
Apahce Doris版本 ：1.2.4.1
Scala版本：2.13
Spark版本：3.3.2

Spark介绍

在这里插入图片描述
伴随数据的巨量增长，Apache Spark 已成为分布式横向扩展数据处理的热门框架之一，可以在本地和云端数以百万计的服务器上运行。

Apache Spark 是应用于大型数据处理的快速通用分析引擎，可在 YARN、Apache Mesos、Kubernetes 上运行，也可独立或在云端运行。借助用于 SQL、流处理、机器学习和图形处理的高级运算符及库，Spark 使开发者能够通过交互式 shell、笔记本或应用程序包来使用 Scala、Python、R 或 SQL 轻松构建并行应用程序。通过功能编程模型和相关查询引擎 Catalyst，Spark 支持批量和交互式分析，可将作业转换为查询方案，并跨集群节点调度查询方案中的操作。

Spark 核心数据处理引擎之上存在多个用于 SQL 和 DataFrame、机器学习、GraphX、图形计算和流处理的库。用户可在来自各种数据源（例如 HDFS、Alluxio、Apache Cassandra、Apache HBase 或 Apache Hive）的海量数据集上结合使用这些库。

Spark安装部署

下载Spark

#根据自己scala版本和系统进行下载
wget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3-scala2.13.tgz

#创建安装文件夹
mkdir -p /opt/spark3.3.2
cd /opt/spark3.3.2

#解压安装
tar -xvf spark-3.3.2-bin-hadoop3-scala2.13.tgz
mv spark-3.3.2-bin-hadoop3-scala2.13.tgz/* ./
rm -rf spark-3.3.2-bin-hadoop3-scala2.13.tgz*

安装Spark及初始化

配置环境变量

vim /etc/profile

#spark3.3.2
export SPARK_HOME=/opt/spark3.3.2
export PATH=$SPARK_HOME/bin:$PATH

#让环境配置生效
source /etc/profile

配置初始化

#进入spark配置目录
cd /opt/spark3.3.2/conf
cp spark-env.sh.template spark-env.sh


#新增如下配置
vim spark-env.sh

export JAVA_HOME=/usr/local/java/jdk1.8.0_361
export SCALA_HOME=/usr/local/scala/scala-2.12.15
export SPARK_HOME=/opt/spark3.3.2
export HADOOP_INSTALL=/usr/hadoop
export HADOOP_CONF_DIR=$HADOOP_INSTALL/etc/hadoop
export SPARK_MASTER_IP=doris
export SPARK_DRIVER_MEMORY=1G
export SPARK_EXECUTOR_MEMORY=1G
export SPARK_LOCAL_DIRS=/home/spark3.3.2

#编辑后:wq退出

配置slaves

#进入spark配置目录
cd /opt/spark3.3.2/conf
cp workers.template workers

#新增如下配置，改为自己的主机名：cat /etc/hostname 
vim workers

doris

##编辑后:wq退出

启动测试

#启动master
./sbin/start-master.sh

#启动wokers
./sbin/workers.sh

结果查看

jps
web（8080）

常见问题

master启动失败

异常详情：failed to launch

解决：

#本地使用的是scala 2.13; 改为2.12 - 无效
#需要下载scala版本对应的spark-3.3.2-bin-hadoop3-scala2.13.tgz

spark安装部署至此结束，安装部署过程中若遇到问题欢迎留言交流

一臻数据

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
4
评论
Apache Doris Spark Load快速体验之Spark部署（1）

Apache Doris Spark Load快速体验之Spark部署（1）
复制链接

扫一扫

专栏目录