一、说明
1、着手大数据应用
2、我的环境: CentOS8
3、我的hadoop版本: 3.2.2
4、hadoop依赖jdk,本文不涉及jdk安装与配置,请自行配置
5、我的服务器ip: 192.168.1.102,配置过程看到102请更换为自己服务器的ip
二、准备工作
1、下载安装包
1)云盘
https://pan.baidu.com/s/1m-NwgxGIpniYL7QndNPx9g
密码:6326
2)其他版本
https://dlcdn.apache.org/hadoop/common/
~~
2、上传服务器
1)我的路径
/opt/hadoop
2)示例图
~~
3、安装与配置hadoop
0)创建用户
useradd hadoop
修改密码
passwd hadoop
密码使用,输入两次
hadoop
说明:hadoop不支持用root操作
增加用户组
groupadd hadoop usermod -a -G hadoop hadoop
切换成hadoop用户操作
su hadoop
1)解压
tar zxvf hadoop
说明: tab补全
2)进入配置目录
cd /opt/hadoop/hadoop-3.2.2/etc/hadoop
3)打印JAVA_HOME路径并复制,配置要用到
echo $JAVA_HOME
4)配置hadoop-env.sh
vi hadoop-env.sh
增加配置:
export JAVA_HOME=/home/jdk/jdk1.8.0_231
示例图:
5)配置yarn-env.sh
vi yarn-env.sh
新增配置:
export JAVA_HOME=/home/jdk/jdk1.8.0_231
说明: 新增到最后一行即可,不再截图
6)配置mapred-env.sh
vi mapred-env.sh
新增配置:
export JAVA_HOME=/home/jdk/jdk1.8.0_231
说明1: 新增到最后一行即可
7)配置core-site.xml
vi core-site.xml
新增配置:
<property> <name>fs.defaultFS</name> <!--访问集群的入口地址--> <value>hdfs://192.168.1.102:38020</value> </property> <property> <name>hadoop.tmp.dir</name> <!--定义数据所在目录--> <value>/opt/hadoop/hadoop-3.2.2/data</value> </property>
说明:放到<configuration>标签里面
说明:ip改成自己服务器的ip
8)配置hdfs-site.xml
vi hdfs-site.xml
新增配置:
<property> <!--考虑数据安全,副本数据默认为3--> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.http-address</name> <!--定义namenode所在服务器--> <value>192.168.1.102:50070</value> </property>
说明:放到<configuration>标签里面
说明:ip改成自己服务器的ip
9)配置yarn-site.xml
vi yarn-site.xml
新增配置:
<property> <!--声明哪台服务器做resourcemanager--> <name>yarn.resourcemanager.hostname</name> <value>192.168.1.102</value> </property> <property> <!--日志聚合,将日志上传至HDFS--> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <!--日志聚合周期--> <name>yarn.log-aggregation.retain-seconds</name> <value>86400</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property>
10)配置mapred-site.xml
vi mapred-site.xml
新增配置:
<property> <!--查看历史执行情况--> <name>mapreduce.jobhistory.webapp.address</name> <value>192.168.1.102:19888</value> </property> <!--启动命令:sbin/mr-jobhistory-daemon.sh start historyserver--> <property> <!--说明MapReduce运行在yarn上--> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
说明:到此hadoop自身配置完成,还需要系统配置
说明: hadoop配置完后,请留意端口;已使用端口:
jobhistory: 19888 namenode: 50070 hadoop服务端: 38020
说明:请保证端口没有被占用,如果被占用,请自行更换
说明: 可使用命令查看是否被占用
netstat -anp | grep 38082
11)加入到环境变量
vi ~/.bashrc
最后一行加入配置:
export HADOOP_HOME=/opt/hadoop/hadoop-3.2.2 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
配置生效:
source ~/.bashrc
12)初始化namenode
/opt/hadoop/hadoop-3.2.2/bin/hdfs namenode -format
13)启动namenode
hdfs --daemon start namenode
14)启动datanode
hdfs --daemon start datanode
15)查看是否启动成功
jsp
成功示例:
~~