pyspark 环境搭建_ubuntu18上搭建spark环境

有时候简书上面的文章也写的蛮好的,下面参考一篇文章,安装了如下的spark环境

pre 操作

pre1,先配置好ubuntu的环境,针对新环境,根据需求配置ssh-server,pip或者pip3,python或者是python3

pre2,可以实现在/opt/路径下创建各个组件的folder,下载的组件包分别解压缩在下面各个路径下

94196170a34b55d52f626ca9b1a6a0a4.png

1,安装java

带账号的link可以直接wget

Java SE Development Kit 8​www.oracle.com

解压缩java包到/opt/java下面

tar zxvf xxx

配置java环境变量,

sudo vim /etc/profile

f6561776665da3af389250737e10c2c5.png

source /etc/profile 使配置文件生效。

java -version验证一下。

2,安装hadoop

hadoop选择下面的最新的版本,

9a2bb5b3684394a4819b10187fe513ad.png

e2faea5b2d14989c3ee2dbf4c4d03071.png

突然想知道为啥叫hadoop?发现网上有如下解释

没有任何意思,hadoop,是说创始人的儿子在玩玩具大象时候嘴里嘟囔的声音。分布式计算的基础框架,基于Google的Map/Reduce论文的Java实现版,类似的还有HyperTable和BigTable

解压缩hadoop包到/opt/hadoop/下面

tar zxvf xxx

配置hadoop环境变量,

sudo vim /etc/profile

12b04c457f5af86e4de67904d006896a.png

配置hadoop的目录文件

路径:/opt/hadoop/hadoop-2.10.1/etc/hadoop

core-site文件

6dfab58a60755737ccc04160ef39a8e8.png

hdfs-site文件,

213ac00a3a5ed8ac4c0d8a228109b8b1.png

设置免密登陆
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
验证Hadoop的安装

a. 格式化文件系统

bin/hdfs namenode -format

b. 启动Namenode和Datanode

c.浏览器访问http://xxxx:50070

是hadoop的一个界面,

bff52c9b4216c2f9ee994b65ea007a67.png

3,安装spark

选择spark3.x

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析-阿里云开发者社区 ,这个是说明3.x要更牛逼点

https://www.apache.org/dyn/closer.lua/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz​www.apache.org

解压缩spark包到/opt/spark下面

tar zxvf xxx

配置spark的环境变量

fe4f2398b128b9d1bafd7be831c589fb.png

验证spark安装

./bin/run-example SparkPi 10 测试spark的安装

d8499ca2c783fae22926083630492437.png

9e8f080172e5225c8e761b53d8de0160.png

267ff55bdaa65138f77f326e332e9fae.png

(4)安装pyspark

如果是wget网速太慢,就用用清华的源

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package

(5)安装zeppelin,清华的源要更快一些

https://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/zeppelin-0.8.2/zeppelin-0.8.2-bin-all.tgz​mirrors.tuna.tsinghua.edu.cn

配置文件conf/zeppelin-env.sh,添加环境变量

0cd47ce8ab9258ff1c23ad2898ad4ea3.png

(5.1)涉及到一个如何配置配置外网IP的操作

/opt/zeppelin/zeppelin-0.9.0-preview2-bin-all/conf/zeppelin-site.xml

(5.2)zeppelin操作的小步骤,这个安装本身还是比较简单,但是要做到对每个步骤理解和熟悉,可能还需要项目或者数据来驱动,驱动这次词用的比较好,呱唧呱唧

(5.2.1)停止zeppelin server

cd /opt/zeppelin

bin/zeppelin-daemon.sh stop

(5.2.2)杀死未能正常停止的SparkSubmit进程

jps -lvm | grep zeppelin | awk '{print $1}' | xargs kill -9

(5.2.3)重新启动zeppelin

bin/zeppelin-daemon.sh start

76ed9a1659ad44f653c91c8ffbb301e4.png

fe8a8533826a4c801c6b7ea9567a04a2.png

参考如下文章,

ubuntu18.04从零开始搭建单机spark环境​www.jianshu.com
0fe99ff838ccc76cbc0af8e6bfa4c33e.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值