设置IP地址
配置好以后点击确定。
修改静态IP地址
sudo vim /etc/netplan/01-network-manager-all.yaml(文件名可能不同),改完保存,
然后sudo netplan apply。
注意yaml语法格式,**:**之后要加空格
克隆三个节点,master, slave1,slave2
修改主机名 sudo vim /etc/hostname
为什么要设置主机名呢?这是因为在根据master主机克隆的同时把主机名也克隆了,这就导致slave1主机和slave2主机的主机名也为master,因此要进行配置,在slave1,slave2上分别执行
sudo vim /etc/hostname命令并修改master为slave1,slave2
修改IP地址
修改映射 sudo vim /etc/hosts
添加
192.168.30.131 master
192.168.30.132 slave1
192.168.30.133 slave2
为了以后操作方便,我们也为宿主系统配置主机名映射,使用文本编辑器打开 C:\Windows\System32\drivers\etc\host 文件并在文件末尾添加以下配置并保存退出
192.168.30.131 master
192.168.30.132 slave1
192.168.30.133 slave2
修改完主机名和映射以后就可以使用xshell通过ssh协议远程连接linux主机
Xshell中新建三个连接分别命名为master,slave1,slave2,登录用户名为spark000,密码为123456。
下一步就可以在xshell中配置集群内三台主机之间的免密登录。
免密ssh
三个节点分别 生成秘钥ssh-keygen -t rsa
分别在三个节点运行 ssh-copy-id master 全部拷贝至master
进入.ssh 目录 cd .ssh
scp ~/.ssh/authorized_keys slave1:~/.ssh
scp ~/.ssh/authorized_keys slave2:~/.ssh
与此同时系统会让输入slave1主机和slave2主机hadoop用户的密码,这样ssh免密功能就配置好啦,可以在master上尝试
s
s
h
s
l
a
v
e
1
命令 和
ssh slave1 命令 和
sshslave1命令 和 ssh slave2 命令进行验证是否为免密登录。
做完以上操作后系统的准备工作就做好了,但实际在操作主机时是不会真的在主机上操作,而通常是通过一个远程连接软件来操作主机的,那么我们就来使用XShell软件实现远程登录。
在各个节点的/home/用户名/目录下创建两个文件夹
mkdir software
mkdir servers
修改Ubuntu时区
我选择的是上海的时区 可以修改为BeiJing 根据自己需要进行修改即可
sudo timedatectl set-timezone Asia/Shanghai
在Master上:
上传jdk安装包到software,解压到servers
cd ~/software
tar -zxvf ./jdk-8u201-linux-x64.tar.gz -C ~/servers
mv jdk1.8.0_201 jdk
设置jdk环境变量
vi ~/.bashrc
添加如下代码
export JAVA_HOME=~/servers/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar:.
export PATH=${JAVA_HOME}/bin:$PATH
使得设置生效
source ~/.bashrc
检测是否安装成功
java -version
出现如下版本信息表示jdk安装成功
java version “1.8.0_201”
Java™ SE Runtime Environment (build 1.8.0_201-b09)
Java HotSpot™ 64-Bit Server VM (build 25.201-b09, mixed mode)
Hadoop 安装配置
进入Index of /dist/hadoop/common官网下载Hadoop相应版本
上传到software目录
解压到servers
tar -zxvf hadoop-2.7.4.tar.gz -C ~/servers/
重命名文件
mv hadoop-2.7.4/ hadoop
设置环境变量,以后就可以在任意目录下使用Hadoop相关命令
vi ~/.bashrc
添加下面的语句
export HADOOP_HOME=~/servers/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使设置生效
source ~/.bashrc
hadoop version 查看hadoop的版本
在hadoop的目录中,bin目录存放相关的一些服务脚本,但一般用的不多
在etc中存放的配置文件 hadoop要修改的配置文件都在这里
在include中存放的是和C++相关的头文件
在lib中存放的是库文件
在libexec中放的是和shell相关的文件
在sbin中存放的是hadoop的一些管理脚本,用的相对比较多
在share中存放的是jar包
在src中存放的是源码包
Hadoop****中需要配置7个文件
Hadoop-env.sh 配置Hadoop运行所需的环境变量
Yarn-env.sh 配置yarn运行所需的环境变量
Core-site.xml hadoop核心全局配置文件
Hdfs-site.xml hdfs配置文件,继承core-site.xml配置文件
Mapred-site.xml MapReduce配置文件,继承core-site.xml配置文件
Yarn-site.xml yarn配置文件,继承core-site.xml
Slaves 用来配置DataNode节点。
hadoop_env.sh****中
修改
# The java implementation to use.
export JAVA_HOME=/home/spark000/servers/jdk
配置jdk的安装路径
修改core-site.xml
<configuration> 根标签
<property>
<name>fs.defaultFS</name> hadoop集群文件系统的类型
<value>hdfs://master:8020</value> 主节点以及端口
</property>
<property>
<name>hadoop.tmp.dir</name> 临时文件存储目录
<value>/home/spark000/servers/hadoop/tmp</value>
</property>
</configuration>
修改hdfs-site.xml
<property>
<name>dfs.namenode.secondary.http-address</name>
指定secondarynamenode的主机和端口
<value>master:50090</value>
</property>
<property>
<name>dfs.replication</name> 指定存储文件副本的数量
<value>2</value>
</property>
mapred-site.xml
复制cp mapred-site.xml.template mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- jobhistory properties -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
修改yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>设置yarn的主节点
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
修改yarn-env.sh
找到
# export JAVA_HOME=/home/y/libexec/jdk1.6.0/
在下面添加
export JAVA_HOME=~/servers/jdk
修改slaves
配置从节点
添加 slave1 slave2
远程分发
scp -r ~/servers/hadoop slave1:~/servers
做了那么多年开发,自学了很多门编程语言,我很明白学习资源对于学一门新语言的重要性,这些年也收藏了不少的Python干货,对我来说这些东西确实已经用不到了,但对于准备自学Python的人来说,或许它就是一个宝藏,可以给你省去很多的时间和精力。
别在网上瞎学了,我最近也做了一些资源的更新,只要你是我的粉丝,这期福利你都可拿走。
我先来介绍一下这些东西怎么用,文末抱走。
(1)Python所有方向的学习路线(新版)
这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
最近我才对这些路线做了一下新的更新,知识体系更全面了。
(2)Python学习视频
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。
(3)100多个练手项目
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。
(4)200多本电子书
这些年我也收藏了很多电子书,大概200多本,有时候带实体书不方便的话,我就会去打开电子书看看,书籍可不一定比视频教程差,尤其是权威的技术书籍。
基本上主流的和经典的都有,这里我就不放图了,版权问题,个人看看是没有问题的。
(5)Python知识点汇总
知识点汇总有点像学习路线,但与学习路线不同的点就在于,知识点汇总更为细致,里面包含了对具体知识点的简单说明,而我们的学习路线则更为抽象和简单,只是为了方便大家只是某个领域你应该学习哪些技术栈。
(6)其他资料
还有其他的一些东西,比如说我自己出的Python入门图文类教程,没有电脑的时候用手机也可以学习知识,学会了理论之后再去敲代码实践验证,还有Python中文版的库资料、MySQL和HTML标签大全等等,这些都是可以送给粉丝们的东西。
这些都不是什么非常值钱的东西,但对于没有资源或者资源不是很好的学习者来说确实很不错,你要是用得到的话都可以直接抱走,关注过我的人都知道,这些都是可以拿到的。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!