spark-pyspark配置-本地配置

最新推荐文章于 2025-03-17 19:41:51 发布

哈哈哈哈q

最新推荐文章于 2025-03-17 19:41:51 发布

阅读量860

点赞数 26

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/m0_74230025/article/details/145100363

版权

声明：

1.参考视频b站黑马程序员视频，极力推荐这个视频，侵权删除

https://www.bilibili.com/video/BV1Jq4y1z7VP/?spm_id_from=333.337.search-card.all.click&vd_source=3ae466b20a9e8eabdaa10e84c9975849

2.第一次配置，仅作为个人记录使用。

3.所有软件在Linux安装地址默认/export/server，包括anaconda与spark，创建目录指令：mkdir export

一、准备Linux系统（本人使用VMware虚拟机）、Hadoop（本人使用3.3.4版本，本人使用spark支持Hadoop版本为3+）、spark安装包、anaconda安装包。

1.VMware与Hadoop默认配置完毕。

2.Hadoop在Linux系统里查看版本指令：Hadoop version，版本3+即可。

3.spark清华源安装地址（本人使用安装包：spark-3.5.4-bin-hadoop3.tgz）：

Index of /apache/spark/spark-3.5.4

4.anaconda安装包百度网盘：

通过网盘分享的文件：Anaconda3-2021.05-Linux-x86_64.sh
链接: https://pan.baidu.com/s/1rNNupcEHYSE-lBLUQq3EGQ?pwd=s9pm 提取码: s9pm
--来自百度网盘超级会员v1的分享

二、安装anaconda

1.上传安装包Anaconda3-2021.05-Linux-x86_64.sh文件到Linux服务器上

2.安装指令:sh ./Anaconda3-2021.05-Linux-x86_64.sh，加载后 输入yes后就安装完成了

（此处更改，图片误将export写为expert）.

3.安装完成后, 退出VM或重新连接虚拟机，看到这个Base开头表明安装好了.base是默认的虚拟环境.

4.修改anaconda清华源

追加以下内容后，esc退出，按shift+：，输入wq！，退出。

channels:
  - defaults
show_channel_urls: true
default_channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
  conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
  simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud

5.测试：

6.创建anaconda新空间并修改python=3.8

7.使用新空间

anaconda配置完毕，即python配置完毕。

三、安装spark

1.上传安装包文件到Linux服务器上。

2.解压文件

3.配置环境变量(hadoop与Java环境变量默认配置完毕)

export SPARK_HOME=/export/server/spark
export PYSPARK_PYTHON=/export/server/anaconda3/envs/pyspark/bin/python3.8
export HADOOP_CONF_DIR=$HDADOOP_HOME/etc/hadoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

4.配置bashrc