有时候简书上面的文章也写的蛮好的,下面参考一篇文章,安装了如下的spark环境
pre 操作
pre1,先配置好ubuntu的环境,针对新环境,根据需求配置ssh-server,pip或者pip3,python或者是python3
pre2,可以实现在/opt/路径下创建各个组件的folder,下载的组件包分别解压缩在下面各个路径下
1,安装java
带账号的link可以直接wget
Java SE Development Kit 8www.oracle.com解压缩java包到/opt/java下面
tar zxvf xxx
配置java环境变量,
sudo vim /etc/profile
source /etc/profile 使配置文件生效。
java -version验证一下。
2,安装hadoop
hadoop选择下面的最新的版本,
突然想知道为啥叫hadoop?发现网上有如下解释
没有任何意思,hadoop,是说创始人的儿子在玩玩具大象时候嘴里嘟囔的声音。分布式计算的基础框架,基于Google的Map/Reduce论文的Java实现版,类似的还有HyperTable和BigTable
解压缩hadoop包到/opt/hadoop/下面
tar zxvf xxx
配置hadoop环境变量,
sudo vim /etc/profile
配置hadoop的目录文件
路径:/opt/hadoop/hadoop-2.10.1/etc/hadoop
core-site文件
hdfs-site文件,
设置免密登陆
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
验证Hadoop的安装
a. 格式化文件系统
bin/hdfs namenode -format
b. 启动Namenode和Datanode
c.浏览器访问http://xxxx:50070
是hadoop的一个界面,
3,安装spark
选择spark3.x
Apache Spark 3.0.0重磅发布 —— 重要特性全面解析-阿里云开发者社区 ,这个是说明3.x要更牛逼点
https://www.apache.org/dyn/closer.lua/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgzwww.apache.org解压缩spark包到/opt/spark下面
tar zxvf xxx
配置spark的环境变量
验证spark安装
./bin/run-example SparkPi 10 测试spark的安装
(4)安装pyspark
如果是wget网速太慢,就用用清华的源
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package
(5)安装zeppelin,清华的源要更快一些
https://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/zeppelin-0.8.2/zeppelin-0.8.2-bin-all.tgzmirrors.tuna.tsinghua.edu.cn配置文件conf/zeppelin-env.sh,添加环境变量
(5.1)涉及到一个如何配置配置外网IP的操作
/opt/zeppelin/zeppelin-0.9.0-preview2-bin-all/conf/zeppelin-site.xml
(5.2)zeppelin操作的小步骤,这个安装本身还是比较简单,但是要做到对每个步骤理解和熟悉,可能还需要项目或者数据来驱动,驱动这次词用的比较好,呱唧呱唧
(5.2.1)停止zeppelin server
cd /opt/zeppelin
bin/zeppelin-daemon.sh stop
(5.2.2)杀死未能正常停止的SparkSubmit进程
jps -lvm | grep zeppelin | awk '{print $1}' | xargs kill -9
(5.2.3)重新启动zeppelin
bin/zeppelin-daemon.sh start
参考如下文章,
ubuntu18.04从零开始搭建单机spark环境www.jianshu.com