前言
Spark支持多语言开发,目前它最常使用的就是python,所以我们需要安装python环境,如果你之后要用Pyspark,就更需要安装了。我们下载的是Anaconda版本的python,具体原因可以参考这个博主的介绍,巨详细。
https://blog.csdn.net/weixin_56197703/article/details/124630222
一、Anaconda介绍
我参考这个博主,做出以下简单介绍。
简单地讲,它就是一个开源的、专注于数据分析的Python发行版本,内部包含了包管理器conda、常见软件库(包)、python解释器等各种依赖项。
优点:
- conda自带丰富功能包,避免了频繁的pip操作;
- conda管理包的功能比pip更强,且支持多种语言;
- conda能为不同版本的库建立不同的虚拟环境,可以在不同环境间切换,而不像pip一样,所有的库(包括版本差异)都安装在同一个路径内;
- Anaconda自带 python解释器和Spyder(集成开发环境,简称IDE),这样就无须单独安装python主程序,也无须借助别的IDE(如Pycharm、vscode)。
二、Anaconda安装(windows)
1、检验python版本
在下载Anaconda之前,我们得先确定本地有无已安装的python,避免Anaconda 与 常规的Python主程序产生冲突。
1)打开命令符窗口(cmd),输入python
显然我这里本地安装了3.8.2版本的python,需要将其卸载,如果你的没有,忽略即可。
2)找到python的安装路径,我这里是D:\Python\python3.8.2
3)双击python-3.8.2-amd64.exe,进入如下页面,然后点击红框里的选项
然后就是等待卸载完毕的过程
4)删除python安装的路径,我这里就是python3.8.2
到这里,python就卸载干净了。
2、下载和安装Anaconda
windows 和 linux 版本的Anaconda下载链接如下:
链接:https://pan.baidu.com/s/1ZmarnyvBzHESBMXRBnri4g?pwd=d094
提取码:d094
1)下载好后点击exe程序,进行安装
2)不断下一步,选好安装路径
到这里,Anaconda就安装好了。
以上这些就是刚安装的Anaconda内容
3、配置国内源
Anaconda默认源服务器在国外, 网速比较慢, 配置国内源加速网络下载.
1)打开Anaconda Prompt程序,执行以下命令
#将清华镜像配置添加到Anaconda中
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
#在 conda 命令的输出中显示Channel URL
conda config --set show_channel_urls yes
2)查看channel,检验是否成功
conda info
4、创建虚拟环境
1)创建虚拟环境
方式有2种
#直接创建
conda create -n 环境名 -y
#指定版本类型
conda create -n 环境名 python=x.x.x -y
我这里用得是conda create -n pyspark python=3.8
,创建虚拟环境 pyspark, 基于Python 3.8。
补充:python --version
可以查看当前python版本。
2)查看环境有无建好,两种写法任意挑一种:
conda info --envs
conda env list
5、激活/切换虚拟环境
激活刚才创建好的环境,这个指令也能用于切换环境。
conda activate pyspark
6、配置各类安装包(库)
指令可以分成两类:conda 和 pip。
1)conda
#在当前环境中安装包
conda install 包名称
#指定版本号
conda install 包名称=version
#在指定环境中安装
conda install -n 环境名 包名称
2)pip
#清华镜像
pip install 包名称 -i https://pypi.tuna.tsinghua.edu.cn/simple
#豆瓣镜像
pip install 包名称 -i https://pypi.douban.com/simple
由于我这边要搞pyspark的部署,所以我这里就下载pyhive
、pyspark
和jieba
这三个包。
pip install pyhive pyspark jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
7、测试环境
我们以导入包来测试创建好的环境是否能用
conda activate pyspark
python
import pyhive
8、退出环境/python
#退出环境
conda deactivate # windows
source deactivate 环境名 # linux
deactivate 用于退回上一环境
#退出python
exit()
9、删除环境/包
如果不想要某个包/环境了,可以用包管理器conda删除
删除环境
conda remove -n 环境名 --all -y
删除包
#当前环境
conda remove 包名称
#指定环境的包
conda remove -n 环境名 包名称
其它conda命令可以参考刚才那个博主总结的:
https://blog.csdn.net/weixin_56197703/article/details/124630222
三、Anaconda安装(Linux)
1、上传sh文件
将文件上传到安装路径中,我这里是/export/servers
。
2、安装Anaconda
sh ./Anaconda3-2021.05-Linux-x86_64.sh
然后就是一些授权信息,直接空格跳过即可。
接下来就是耐心等待,直到以下画面
安装完成后,需要重新连接到linux服务器让anaconda环境变量生效,所以我们重新登录终端
3、配置国内源
vi /root/.condarc
#将以下内容粘贴到文件中,然后保存退出
channels:
- defaults
show_channel_urls: true
default_channels:
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r
- https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2
custom_channels:
conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud
4、创建虚拟环境
1)创建虚拟环境
conda create -n pyspark python=3.8
执行效果如下
2)查看环境有无建好
conda env list
5、切换环境
conda activate pyspark
6、配置类库
这里还是以在pyspark环境下去安装pyspark类库为例,推荐使用pip命令安装,更稳定。
pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple
如果你想要其它的节点都安装该类库,只需每台机器切换到相同虚拟环境,重复上述命令即可,一般集群模式都会确保所有节点都安装。
成功导入pyspark类库
到这里,Linux的anaconda已经安装好了。
对了,windows系统都安装好python环境之后,如果需要在IDE软件上配置python解释器的话?参考以下文章:
Pycharm配置本地python解释器(conda版)
其它文章:
Spark环境搭建部署全流程,看这一篇就够了