最近买了一台云服务器(阿里云)来做web服务器,做的网站只是初步版本(www.qihea.xyz),没人访问,觉得有些浪费。加上舍友也有一台云服务器(天翼云),并且最近在学spark,于是打算在这两台机器中搭建环境。这两台机器都是1核2g的,反正对于学习时足够了。
在配置过程中我发现:我遇到的所有的bug,都是配置问题,尤其是简单的单词拼写的问题。如果你配置过程中有什么问题可以留言反馈。
因为期间借鉴了太多博主的博客,就不一一感谢了。
配置一共花费了一天半的时间,配置完成后,不想再去看书了,于是现在写一下总结。(自己有太多东西要学,又有太多东西要总结,?)
云主机:天翼云主机:hadoop1,阿里云主机:hadoop2
版本: spark-2.4.0-bin-hadoop2.7.tgz,hadoop3.1.1
名称 :
hadoop1:NameNode,DataNode;ResourceManager,NodeManager;Master,worker
hadoop2:DataNode;NodeManager;worker
1.购买云服务器:
如果买云服务器,最好要买一个厂商的一个地区的,这样可以通过局域网连接,会很方便。
好像除了百度云,其他的都有大学生优惠,买ecs就行,一年120左右,然后用cetnos7操作系统。初步通过官网登录,查找和更改自己的用户密码,以及操作系统用户密码,用来接下来的远程连接使用。有一切问题就问客服。
注意云服务器需要安全组配置来开放端口,我先把我用到的端口列举出来:
ssh使用22端口,买了之后就有的配置。
在hadoop1服务器开放此服务器端口
HDFS | NameNode | 50070 | dfs.namenode.http-address | http服务的端口 |
YARN | ResourceManager | 8088 | yarn.resourcemanager.webapp.address | http服务端口 |
还需要开放9000,8031端口。
在hadoop2需要开放的端口:9866端口。
2.下载xshell6
(有钱就支持正版啦),直接用ssh登录就行。注意使用ssh登录需要在服务器配置ssh协议,我这两台云主机开机就有ssh协议,不需要我自己再在服务器配置下载。使用工具还是挺方便的,尤其是支持复制粘贴。
3.配置各种环境:注意两台机器路径最好是相同的,这样最简单。
配置的过程中可以多参考几个博客:Hadoop(三)手把手教你搭建Hadoop全分布式集群,最好是参考官方文档。
先把全部的配置信息放到这里:注意另外一台也需要配置,可以使用scp命令传过去
vim /etc/profile
# java path
export JAVA_HOME=/usr/lib/jvm/java
export
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/jre/lib/rt.jar
export PATH=$PATH:$JAVA_HOME/bin
#hadoop path
export HADOOP_HOME=/usr/lib/hadoop-3.1.1
export PATH=$PATH:$HADOOP_HOME/bin
export SCALA_HOME=/usr/lib/scala-2.12.8
export PATH=$PATH:$SCALA_HOME/bin
export PATH=