1-spark 官网-Apache Spark™ - Unified Engine for large-scale data analytics
2-点击download
3-继续选择-Download Spark: spark-3.4.1-bin-hadoop3.tgz
4-点击后下载地址:Apache Downloads
如下图,也可以直接选择该地址下载。
5-解压到目标目录即完成安装(注意一定要安装在全是英文的路径下), spark 解压后主要包含如下子目录:
部署local模式(直接解压即可,不需要配置)
启动spark
切换到spark的bin目录下,然后运行下面的命令./spark.shell
bin/ (工具程序目录)
conf/ (配置文件目录)
jars/ (scala Jar 包目录)
python/ (python package 目录)
sbin/ (服务程序管理脚本目录)
data —— Spark测试文件
examples —— Spark示例程序
6-配置本地环境变量:
SPARK_HOME 安装路径比如: D:\spark-3.4.1-bin-hadoop3\
再添加path - %spark_home%\bin
7-启动运行
再次双击:到spark的bin目录下的命令./spark.shell
顺利运行出现spark 界面即可,如下图:
8- 上图红色标记的部分-UI http :// ——这个内容因人而异,可以输入这个网址在你自己的浏览器下:可以看到运行程序命令的具体情况,这个算是spark 的可视化界面吧。
9-尝试案例
在你本地编写一个txt 文档,比如 a.txt 里面可以编写
hello world
hello java
hello spark
hello yaya
执行命令:
scala> sc.textFile("C:/tmp/").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
运行结果:
res3: Array[(String, Int)] = Array(("",3), (hello,4), (yaya,1), (java,1), (world,1), (spark,1))
这样spark 即为运行成功。