scp ~/.ssh/authorized_keys slave2:~/.ssh
与此同时系统会让输入slave1主机和slave2主机hadoop用户的密码,这样ssh免密功能就配置好啦,可以在master上尝试
s
s
h
s
l
a
v
e
1
命令 和
ssh slave1 命令 和
sshslave1命令 和 ssh slave2 命令进行验证是否为免密登录。
做完以上操作后系统的准备工作就做好了,但实际在操作主机时是不会真的在主机上操作,而通常是通过一个远程连接软件来操作主机的,那么我们就来使用XShell软件实现远程登录。
在各个节点的/home/用户名/目录下创建两个文件夹
mkdir software
mkdir servers
修改Ubuntu时区
我选择的是上海的时区 可以修改为BeiJing 根据自己需要进行修改即可
sudo timedatectl set-timezone Asia/Shanghai
在Master上:
上传jdk安装包到software,解压到servers
cd ~/software
tar -zxvf ./jdk-8u201-linux-x64.tar.gz -C ~/servers
mv jdk1.8.0_201 jdk
设置jdk环境变量
vi ~/.bashrc
添加如下代码
export JAVA_HOME=~/servers/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH= J A V A H O M E / l i b / d t . j a r : {JAVA_HOME}/lib/dt.jar: JAVAHOME/lib/dt.jar:{JAVA_HOME}/lib/tools.jar:.
export PATH= J A V A H O M E / b i n : {JAVA_HOME}/bin: JAVAHOME/bin:PATH
使得设置生效
source ~/.bashrc
检测是否安装成功
java -version
出现如下版本信息表示jdk安装成功
java version “1.8.0_201”
Java™ SE Runtime Environment (build 1.8.0_201-b09)
Java HotSpot™ 64-Bit Server VM (build 25.201-b09, mixed mode)
Hadoop 安装配置
进入Index of /dist/hadoop/common官网下载Hadoop相应版本
上传到software目录
解压到servers
tar -zxvf hadoop-2.7.4.tar.gz -C ~/servers/
重命名文件
mv hadoop-2.7.4/ hadoop
设置环境变量,以后就可以在任意目录下使用Hadoop相关命令
vi ~/.bashrc
添加下面的语句
export HADOOP_HOME=~/servers/hadoop
export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin
使设置生效
source ~/.bashrc
hadoop version 查看hadoop的版本
在hadoop的目录中,bin目录存放相关的一些服务脚本,但一般用的不多
在etc中存放的配置文件 hadoop要修改的配置文件都在这里
在include中存放的是和C++相关的头文件
在lib中存放的是库文件
在libexec中放的是和shell相关的文件
在sbin中存放的是hadoop的一些管理脚本,用的相对比较多
在share中存放的是jar包
在src中存放的是源码包
Hadoop****中需要配置7个文件
Hadoop-env.sh 配置Hadoop运行所需的环境变量
Yarn-env.sh 配置yarn运行所需的环境变量
Core-site.xml hadoop核心全局配置文件
Hdfs-site.xml hdfs配置文件,继承core-site.xml配置文件
Mapred-site.xml MapReduce配置文件,继承core-site.xml配置文件
Yarn-site.xml yarn配置文件,继承core-site.xml
Slaves 用来配置DataNode节点。
hadoop_env.sh****中
修改
The java implementation to use.
export JAVA_HOME=/home/spark000/servers/jdk
配置jdk的安装路径
修改core-site.xml
根标签
fs.defaultFS hadoop集群文件系统的类型
hdfs://master:8020 主节点以及端口
hadoop.tmp.dir 临时文件存储目录
/home/spark000/servers/hadoop/tmp
修改hdfs-site.xml
dfs.namenode.secondary.http-address
指定secondarynamenode的主机和端口
master:50090
dfs.replication 指定存储文件副本的数量
2
mapred-site.xml
复制cp mapred-site.xml.template mapred-site.xml
mapreduce.framework.name
yarn
mapreduce.jobhistory.address
master:10020
mapreduce.jobhistory.webapp.address
master:19888
修改yarn-site.xml
yarn.resourcemanager.hostname设置yarn的主节点
master
yarn.nodemanager.aux-services
mapreduce_shuffle
修改yarn-env.sh
找到
# export JAVA_HOME=/home/y/libexec/jdk1.6.0/
在下面添加
export JAVA_HOME=~/servers/jdk
修改slaves
配置从节点
添加 slave1 slave2
远程分发
scp -r ~/servers/hadoop slave1:~/servers
scp -r ~/servers/hadoop slave2:~/servers
scp /home/hadoop/.bashrc slave1:~/
scp /home/hadoop/.bashrc slave2:~/
分发完毕以后在每个节点都要执行
source ~/.bashrc
格式化文件系统
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
mg-aQCdRIpb-1712519616015)]
[外链图片转存中…(img-aO2o4Kd7-1712519616015)]
[外链图片转存中…(img-jAeTkHUf-1712519616015)]
[外链图片转存中…(img-XEKwwbtY-1712519616015)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-eavTyssS-1712519616016)]