官方入门文档
https://spark.apache.org/docs/latest/
Spark 下载地址
https://spark.apache.org/downloads.html
需要注意,默认这个页面的 jquery 文件地址被墙了,需要自行解决。
我选择 Spark 3.0.1 版本 pre build for apache hadoop 2.7。
网站会自动推荐一个下载地址,可以看到默认选择的是国内的北京外国语大学的下载源:
wget https://mirrors.bfsu.edu.cn/apache/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz
下载。文件非常大,有 210M 之巨。
> ls -lah
total 210M
-rw-rw-rw- 1 zhongwei zhongwei 210M Aug 28 17:25 spark-3.0.1-bin-hadoop2.7.tgz
解压
tar zxvf spark-3.0.1-bin-hadoop2.7.tgz
目录结构
> cd spark-3.0.1-bin-hadoop2.7
> tree -L 1
.
├── LICENSE
├── NOTICE
├── R
├── README.md
├── RELEASE
├── bin
├── conf
├── data
├── examples
├── jars
├── kubernetes
├── licenses