Python大数据之PySpark(二)PySpark安装_支持依赖项 ‘python pyspark‘ 的插件 spark 当前尚未安装。(1)

最新推荐文章于 2024-09-24 08:24:43 发布

2401_84182507

最新推荐文章于 2024-09-24 08:24:43 发布

阅读量1.5k

点赞数 17

分类专栏：程序员文章标签： python 大数据 spark

本文链接：https://blog.csdn.net/2401_84182507/article/details/138263329

版权

1-如何安装PySpark？

首先安装anconda，基于anaconda安装pyspark

anaconda是数据科学环境，如果安装了anaconda不需要安装python了，已经集成了180多个数据科学工具

注意：anaconda类似于cdh，可以解决安装包的版本依赖的问题

Linux的Anaconda安装

2-如何安装anconda？

去anaconda的官网下载linux系统需要文件 Anaconda3-2021.05-Linux-x86_64.sh

上传到linux中，执行安装sh Anaconda3-2021.05-Linux-x86_64.sh或bash Anaconda3-2021.05-Linux-x86_64.sh

直接Enter下一步到底，完成

配置环境变量，参考课件

3-Anaconda有很多软件

IPython 交互式Python，比原生的Python在代码补全，关键词高亮方面都有明显优势

jupyter notebook：以Web应用启动的交互式编写代码交互式平台(web平台)

180多个工具包

conda和pip什么区别？

conda和pip都是安装python package

conda list可以展示出package的版本信息

conda 可以创建独立的沙箱环境，避免版本冲突，能够做到环境独立

conda create -n pyspark_env python==3.8.8

4-Anaconda中可以利用conda构建虚拟环境

这里提供了多种方式安装pyspark

（掌握）第一种：直接安装 pip install pyspark

（掌握）第二种：使用虚拟环境安装pyspark_env中安装，pip install pyspark

第三种：在PyPi上下载下来对应包执行安装

5-如何查看conda创建的虚拟环境？

conda env list

conda create -n pyspark_env python==3.8.8

pip install pyspark