pyspark 环境搭建_ubuntu18上搭建spark环境

最新推荐文章于 2024-06-30 07:15:00 发布

weixin_39603588

最新推荐文章于 2024-06-30 07:15:00 发布

阅读量333

点赞数

文章标签： pyspark 环境搭建

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39603588/article/details/111671529

版权

有时候简书上面的文章也写的蛮好的，下面参考一篇文章，安装了如下的spark环境

pre 操作

pre1，先配置好ubuntu的环境，针对新环境，根据需求配置ssh-server，pip或者pip3，python或者是python3

pre2，可以实现在/opt/路径下创建各个组件的folder，下载的组件包分别解压缩在下面各个路径下

1，安装java

带账号的link可以直接wget

Java SE Development Kit 8www.oracle.com

解压缩java包到/opt/java下面

tar zxvf xxx

配置java环境变量,

sudo vim /etc/profile

source /etc/profile 使配置文件生效。

java -version验证一下。

2，安装hadoop

hadoop选择下面的最新的版本，

突然想知道为啥叫hadoop？发现网上有如下解释

没有任何意思，hadoop，是说创始人的儿子在玩玩具大象时候嘴里嘟囔的声音。分布式计算的基础框架，基于Google的Map/Reduce论文的Java实现版，类似的还有HyperTable和BigTable

解压缩hadoop包到/opt/hadoop/下面

tar zxvf xxx

配置hadoop环境变量，

sudo vim /etc/profile

配置hadoop的目录文件

路径:/opt/hadoop/hadoop-2.10.1/etc/hadoop

core-site文件

hdfs-site文件，

设置免密登陆
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
验证Hadoop的安装

a. 格式化文件系统

bin/hdfs namenode -format

b. 启动Namenode和Datanode

c.浏览器访问http://xxxx:50070

是hadoop的一个界面，

3，安装spark

选择spark3.x

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析-阿里云开发者社区，这个是说明3.x要更牛逼点

https://www.apache.org/dyn/closer.lua/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgzwww.apache.org

解压缩spark包到/opt/spark下面

tar zxvf xxx

配置spark的环境变量

验证spark安装

./bin/run-example SparkPi 10 测试spark的安装

（4）安装pyspark

如果是wget网速太慢，就用用清华的源

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

（5）安装zeppelin，清华的源要更快一些

https://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/zeppelin-0.8.2/zeppelin-0.8.2-bin-all.tgzmirrors.tuna.tsinghua.edu.cn

配置文件conf/zeppelin-env.sh，添加环境变量

（5.1）涉及到一个如何配置配置外网IP的操作

/opt/zeppelin/zeppelin-0.9.0-preview2-bin-all/conf/zeppelin-site.xml

（5.2）zeppelin操作的小步骤，这个安装本身还是比较简单，但是要做到对每个步骤理解和熟悉，可能还需要项目或者数据来驱动，驱动这次词用的比较好，呱唧呱唧

（5.2.1）停止zeppelin server

cd /opt/zeppelin

bin/zeppelin-daemon.sh stop

（5.2.2）杀死未能正常停止的SparkSubmit进程

jps -lvm | grep zeppelin | awk '{print $1}' | xargs kill -9

（5.2.3）重新启动zeppelin

bin/zeppelin-daemon.sh start

参考如下文章，

ubuntu18.04从零开始搭建单机spark环境www.jianshu.com

weixin_39603588

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。