1 概述
浪潮信息KOS是浪潮信息基于Linux Kernel、OpenAnolis等开源技术自主研发的一款服务器操作系统,支持x86、ARM等主流架构处理器,性能和稳定性居于行业领先地位,具备成熟的 CentOS 迁移和替换能力,可满足云计算、大数据、分布式存储、人工智能、边缘计算等应用场景需求。详细介绍见官网链接https://www.ieisystem.com/kos/product-kos-xq.thtml?id=12126。
Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。
2 安装准备
2.1 操作系统环境
版本信息:KeyarchOS 5.8sp1
硬件平台:X86_64
2.2 JDK版本
JAVA -1.8.0-openjdk(已经在KOS AppSteam仓库发布)
2.2 Spark版本
Spark-3.4.1
https://spark.apache.org/downloads
3 安装
3.1 安装JDK
JAVA -1.8.0-openjdk 已经在KOS AppSteam仓库发布,可以通过yum install直接安装:
yum install -y java-1.8.0-openjdk wget unzip
3.2 安装Spark
1、官网下载安装包:spark-3.4.1-bin-hadoop3.tgz
https://spark.apache.org/downloads
2、在存放目录下解压下载的Spark安装包
tar xvf spark-3.4.1-bin-hadoop3.tgz
4 运行Spark
4.1 启动Spark服务
1、进入解压后的Spark文件夹目录下之后,执行启动spark-master命令:
cd spark-3.4.1-bin-hadoop3/
启动spark-master:./sbin/start-master.sh
查看日志:tail logs/spark-root-org.apache.spark.deploy.master.Master-1-localhost.localdomain.out
2、启动spark-worker
SPARK_MASTER_HOST=localhost
./sbin/start-worker.sh spark://$SPARK_MASTER_HOST:7077
查看日志:tail logs/spark-root-org.apache.spark.deploy.worker.Worker-1-localhost.localdomain.out
4.2 登录控制台
Spark-master后台管理页面的端口默认为8080,访问http://localhost:8080:
Spark-worker后台管理页面的端口默认为8081,访问http://localhost:8081:
4.3 运行示例
运行官方示例,计算Pi的值:
bin/run-example SparkPi 1000
4.4 清理环境
- 停止spark-worker:
./sbin/stop-worker.sh
- 停止spark-master:
./sbin/stop-master.sh