Linux环境安装Spark及Jupyter配置记录

TTTT0320

于 2024-07-23 22:45:12 发布

阅读量883

点赞数 20

文章标签： linux spark jupyter

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62374141/article/details/140647965

版权

https://i-chen.icu/?p=384

Spark 介绍

Apache Spark（简称Spark）是一个开源的统一分析引擎，专为大规模数据处理设计。它最初由加利福尼亚大学伯克利分校的AMPLab开发，旨在克服Hadoop MapReduce的局限性。Spark能够进行内存中的数据处理，这使得它在处理迭代算法和交互式数据分析时，比传统的MapReduce要快得多(Amazon Web Services, Inc.) (Apache Spark)。

安装

清华镜像下载：Https://Mirrors.Tuna.Tsinghua.Edu.Cn/Apache/Spark/

wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz

2. Unpack：

tar -zxvf spark-3.3.2-bin-hadoop3.tgz

3. 用 “java -version” Check 是否有安装Java，若无，根据指示安装。

4. 配置环境变量：

vi ~/.bashrc

按I进入Insert模式，在末尾添加：（如果无法进入Insert模式，说明Vim未安装，需要通过Sudo Apt Install Vim安装Vim编辑器）

export SPARK_HOME=~/spark-3.5.1-bin-hadoop3
export PATH=${SPARK_HOME}/bin:$PATH

Esc退出Insert模式，输入:Wq命令保存并退出Vim。

5. 使用source ~/.bashrc使.Bashrc文件配置生效。

6. Pyspark/Ctrl+D退出

Jupyter配置

参考了：Https://Www.Cnblogs.Com/Kingwz/P/18132309

先安装Anaconda，需要下载.Sh文件。老规矩，先上清华镜像！：Https://Mirrors.Tuna.Tsinghua.Edu.Cn/Anaconda/Archive/ 不过我用Wget命令获取时出现了403错误，通过在Windows下载粘贴过去的。

使用Bash命令进行安装，一直回车到Answer Yes Or No。

Bash Anaconda3-2024.02-1-Linux-x86_64.Sh

然后会问安装目录：选择默认目录则直接回车，若自定义目录则输入路径。之后再输入一次Yes。如果在输入Yes之前出现了Error应该是磁盘空间不够了，尝试扩容。

如果安装后输入conda -V查不到信息，显示Conda: Command Not Found，这是因为Anaconda路径没有被识别，输入source ~/.bashrc。到此已经安装好Anaconda了。

之后配置环境变量，添加：

export PYSPARK_DRIVER_PYTHON="jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

Source之后Pyspark，如果想打开指定的网址上的.Ipynb文件，需要先通过Wget 网址来把文件下载到本地，再启动Pyspark，在Jupyter Notebook界面打开文件来编辑。

关注

20
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
Linux环境安装Spark及Jupyter配置记录

Apache Spark（简称Spark）是一个开源的统一分析引擎，专为大规模数据处理设计。它最初由加利福尼亚大学伯克利分校的AMPLab开发，旨在克服Hadoop MapReduce的局限性。Spark能够进行内存中的数据处理，这使得它在处理迭代算法和交互式数据分析时，比传统的MapReduce要快得多() ()。
复制链接

扫一扫

TTTT0320 CSDN认证博客专家 CSDN认证企业博客

码龄3年

1: 原创

174万+: 周排名

20万+: 总排名

883: 访问

: 等级

30: 积分

13: 粉丝

20: 获赞

1: 评论

10: 收藏

私信

关注

热门文章

Linux环境安装Spark及Jupyter配置记录 883

最新评论

Linux环境安装Spark及Jupyter配置记录
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/619185477。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。