背景
Apache Spark 是一个快速的、分布式的通用计算引擎,支持Java、Scala、Python和R多种语言,同时在计算引擎之上提供了多种工具,比如处理SQL和结构化数据的 Spark SQL,用于机器学习的 MLlib,用于图处理的 GraphX 和用于流计算的的 Spark Streaming。
在这篇文章里我们学习如何安装和启动Spark。
前置条件
- 一台Linux/MacOS系统
- 安装了Java(最好为JDK 8)
下载安装包
打开 下载页面,这里选择了最新版本和Hadoop 2.7预构建版本:
点击链接,获得镜像地址,在命令行用 wget
进行下载,下载后解压:
wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
tar xvf spark-2.4.4-bin-hadoop2.7.tgz
cd spark-2.4.4-bin-hadoop2.7
运行example
安装好以后可以尝试运行一下自带的例子 SparkPi
,计算圆周率,命令为:
$ bin/run-example SparkPi 10