mac os安装spark

最近由于需要使用本机环境运行spark,所以进行了spark的安装,

记得当年(2017年)装spark的时候折腾了几个小时才装好,没想到现在安装的流程这么简单,

1. 下载安装包

http://spark.apache.org/downloads.html

这里我选的是spark-2.4.7-bin-hadoop2.7.tgz

2. 安装

cd /usr/local
mv ~/Downloads/spark-3.0.0-preview2-bin-hadoop2.7.tgz ./ # 下载spark在Downloads目录中
tar -zxvf spark-3.0.0-preview2-bin-hadoop2.7.tgz
vim ~/.bash_profile
# bash_profile环境变量中添加如下配置
export SPARK_HOME=/usr/local/spark-3.0.0-preview2-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
export PYSPARK_PYTHON=python3
#
source ~/.bash_profile
conda activate test # 切换到自己的环境
pip install pyspark # 安装pyspark

3. 验证

打开pycharm(或者jupyter及其他IDE)执行以下代码,查看输出是否正确

from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.ml.feature import Binarizer

spark = SparkSession \
    .builder \
    .appName("BinarizerExample") \
    .getOrCreate()

continuousDataFrame = spark.createDataFrame([
    (0, 1.1),
    (1, 8.5),
    (2, 5.2)
], ["id", "feature"])

binarizer = Binarizer(threshold=5.1, inputCol="feature", outputCol="binarized_feature")

binarizedDataFrame = binarizer.transform(continuousDataFrame)

print("Binarizer output with Threshold = %f" % binarizer.getThreshold())
binarizedDataFrame.show()

spark.stop()
Binarizer output with Threshold = 5.100000
+---+-------+-----------------+
| id|feature|binarized_feature|
+---+-------+-----------------+
|  0|    1.1|              0.0|
|  1|    8.5|              1.0|
|  2|    5.2|              1.0|
+---+-------+-----------------+

 

安装Apache Spark通常涉及几个步骤,具体取决于您的操作系统(如LinuxmacOS或Windows)以及您选择的Spark发行版(比如官方二进制包、Docker容器或从源代码编译)。这里是一个基本的安装指南: **对于Linux/Mac OS(使用包管理器):** 1. 更新系统和安装必要的依赖项: ```bash sudo apt-get update && sudo apt-get install openjdk-8-jdk # Ubuntu/Debian brew update && brew cask install java # macOS with Homebrew ``` 2. 安装Scala (Spark需要Scala作为其运行时语言): ```bash sudo apt-get install scala # Debian/Ubuntu brew install scala # macOS with Homebrew ``` 3. 下载Spark安装包: - 访问官方网站 <https://spark.apache.org/downloads.html>,找到合适的版本(例如 `spark-x.x.x-bin-hadoop-y.z`),下载tar.gz文件。 4. 解压并移动到可执行目录: ```bash tar xvf spark-x.x.x-bin-hadoop-y.z.tgz sudo mv spark-x.x.x-bin-hadoop-y.z /usr/local/spark ``` 5. 配置环境变量: ```bash echo 'export SPARK_HOME=/usr/local/spark' >> ~/.bashrc export SPARK_HOME source ~/.bashrc ``` 6. 验证安装: ```bash bin/spark-shell ``` **对于Windows:** 1. 参考官网文档:<https://spark.apache.org/docs/latest/windows-installation.html> 2. 使用Maven或Gradle下载并构建Spark源码,或者下载预编译的二进制包。 3. 将Spark添加到系统路径中。 4. 启动Spark Shell或创建Spark应用程序。 **相关问题--:** 1. 在Windows上如何设置Java环境? 2. 如何配置Spark的配置文件(conf/spark-env.sh 或 spark-defaults.conf)? 3. 如果我想在Spark上运行特定的应用程序,有哪些启动命令?
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值