如何安装并使用pyspark

最新推荐文章于 2024-07-20 00:19:29 发布

G_scsd

最新推荐文章于 2024-07-20 00:19:29 发布

阅读量7.4k

点赞数

分类专栏： hadoop python 文章标签： pyspark Anaconda3安装 spark安装 notebook

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Gscsd_T/article/details/79795836

版权

python 同时被 2 个专栏收录

66 篇文章 6 订阅

订阅专栏

13 篇文章 1 订阅

订阅专栏

1. Anaconda的安装

（1）我们要把本地Anaconda上传到Linux上，我们使用xshell中的文件传输，它会自己运行xftp,前提是我们要有xftp

上传后我们来运行这个文件，但我在运行过程中它提示我要安装一个bzip2的东西，我这里就先写一下吧

（2）安装bzip2

安装软件要切换到root用户下才能够使用，因为普通用户没这个权限

在root用户下输入 yum -y install bzip2

然后我们退出root用户，开始来安装Anaconda bashAnaconda3-5.0.1-Linux-x86_64.sh了，

在这里等待一段时间

看到这个就说明我们安装好了Anaconda3了

然后来更新下环境变量

接着我们来看下我们的python版本

看到python3版本就说明我们当前的python版本是python3，这个python在Anaconda3中

2. 安装spark

（1）使用xshell和xftp来把这个spark版本导入到hadoop用户下并解压到opt目录下

（2）配置spark的环境变量，这个环境配置和之前的jbk和hadoop配置一样，也是在spark目录下声明一个变量，将当前路径赋给该变量，这里我就不多说，可以看我之前写的如何配置hadoop环境的写法。它只有SPARK_HOME和PATH，将之前我配置的环境变量稍微改下就行了，这没有SPARK_CONF_DIR，这点要记住

使得hadoop用户下的.bashrc文件有spark的环境设置

看到这个后，更新下环境变量，source ~/.bashrc

（2）然后我们输入spark-shell

看到上面这个就说明我们的spark能运行了

3. 使用notebook

（1）在使用之前要先开启hadoop

使用 start-dfs.sh 回车

（2）输入 jupyter-notebook -- ippython2

这里这个python是我们的的主机名，如果主机名错误的话它也不会启动，我们来输入这个命令，就会看到以下内容：

把这个链接赋值下拿到浏览器中去访问，我们就会看到

点击我们箭头指向的地方的文件，就会看到以下东西，当然这个代码是我自己打的，我们要把这段代码复制上去，然后运行一下

就会看到如箭头所指的地方出来这东西，说明我们能在这使用spark了，记住，我们现在敲的代码是python代码，具有python风格，但其中也有spark的内容在其中

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

G_scsd CSDN认证博客专家 CSDN认证企业博客

码龄7年

121: 原创

3万+: 周排名

2万+: 总排名

51万+: 访问

: 等级

5585: 积分

299: 粉丝

339: 获赞

257: 评论

1360: 收藏

私信

关注

热门文章

分类专栏

MySQL 1篇
python 66篇
大数据 1篇
pyspark 16篇
Mongo 1篇
ElasticSearch 1篇
docker 2篇
tornado 1篇
python学习 30篇
MySQL数据库 9篇
Django 16篇
Linux 5篇
hadoop 13篇
spark 7篇
Hive 5篇
kafka 2篇
flume 2篇
爬虫 18篇
java 1篇
学习 6篇
程序人生 1篇

最新评论

Python连接MySQL数据库连接池
G_scsd: 应该是，具体的你可以问问ChatGPT，相信能给你更好的答案
Python连接MySQL数据库连接池
魣鮟: 大佬您的意思是不管是不是不同的连接事务都会持续的运行下去是吗
Python连接MySQL数据库连接池
G_scsd: 那有可能是你用的时候刚好连接池断掉了，你加个异常等待试试
Python连接MySQL数据库连接池
魣鮟: 这样吗大佬，我实验的结果是新生成的连接并不能支持当前事务继续执行下去了，会抛出错误来。。。这是啥情况嘞？？
Python连接MySQL数据库连接池
G_scsd: 如果连接池不可用，服务会在超时结束前等待有效的连接池过来，连接是新的，你可以把连接看做一个令牌，有就行，不用管是不是新旧，只要有效会就接着执行，更何况你还没提交呢

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。