Hadoop集群配置详细操作

最新推荐文章于 2024-08-14 20:23:36 发布

怡情灬XiaoBai

最新推荐文章于 2024-08-14 20:23:36 发布

阅读量1.2k

点赞数

分类专栏：大数据文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/qq_42448606/article/details/108129692

版权

大数据专栏收录该内容

23 篇文章 5 订阅

订阅专栏

Hadoop集群配置

1.修改hadoop文件的目录权限
2.配置hadoop文件下的JDK
3.配置hadoop fs文件系统
4.hadoop replicas 备份
5.hadoop mapreduce 计算框架配置
6.hadoop yarn 管理调度的配置
7.配置集群的主机名
8.配置hadoop 环境变量
9.hadoop 格式化 HDFS
- - (1).格式化 HDFS
  - (2).多次格式化会出现从节点jps命令下的DataNode找不到
10.配置hadoop-native库
11.配置从机上的hadoop
12.启动 hadoop

首先是在网上下载lunix系统下的hadoop安装包，在lunix环境下解压到指定路径。

1.修改hadoop文件的目录权限

修改文件的所有者为当前虚拟机的管理员

chown -R root:root hadoop260/

2.配置hadoop文件下的JDK

在hadoop文件的根目录下输入

vi etc/hadoop/hadoop-env.sh

在配置中输入

export JAVA_HOME=/opt/bigdata/java/jdk180

注意：这里的JAVA_HOME要和/etc/profile配置下的jdk名相同

3.配置hadoop fs文件系统

在hadoop文件的根目录下输入

vi etc/hadoop/core-site.xml

在该配置文件中配置

<configuration>
  <property>
    <name>fs.defaultFS</name>
   <!--集群配置是这里要配置主节点的主机别名，要在/etc/hosts文件中记录别名和ip地址之间的关系-->
    <value>hdfs://name:9000</value>

  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/bigdata/hadoop/hadoop260</value>
  </property>
  <property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
  </property>
  <property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
  </property>
</configuration>

写入并退出

4.hadoop replicas 备份

mkdir hdfs

mkdir namenode datanode

然后再到hadoop根目录下执行命令

vi etc/hadoop/hdfs-site.xml

在配置文件中配置

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.permissions</name>
    <value>false</value>
  </property>
 </configuration>

写入并退出

5.hadoop mapreduce 计算框架配置

mapreduce.jobhistory.address 添加jobhistory访问端口
mapreduce.jobhistory.webapp.address 添加jobhistory web访问端口

拷贝一份文件

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

然后在生成的文件下配置

vi etc/hadoop/mapred-site.xml

配置参数

<configuration>
	<property>
	    <name>mapreduce.framework.name</name>
	    <value>yarn</value>
	  </property>
</configuration>

6.hadoop yarn 管理调度的配置

yarn.log-aggregation.retain-seconds 添加yarn日志保留时间为7天（单位秒）
yarn.nodemanager.aux-services.mapreduce.shuffle.class 添加指定shuffle计算具体类型
yarn.resourcemanager.hostname 添加yarn主机名

hadoop根目录下输入

vi etc/hadoop/yarn-site.xml

输入配置信息

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>chenzhen</value>
  </property>
</configuration>

7.配置集群的主机名

hadoop slaves 主机名
hadoop根目录下输入

vi etc/hadoop/slaves

配置主机名，这里是三个从机的别名，也是要在/etc/hosts文件中记录别名和ip地址之间的关系

vmclient01
vmclient02
vmclient04

8.配置hadoop 环境变量

配置环境变量

vi /etc/profile


export HADOOP_HOME=/opt/bigdata/hadoop/hadoop260
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$NODE_HOME/bin:$JAVA_HOME/bin:$TOMCAT_HOME/bin:$PATH

让环境变量生效

source /etc/profile

9.hadoop 格式化 HDFS

(1).格式化 HDFS

到hadoop的bin目录下执行下面的操作

hdfs namenode -format

见到以下信息说明格式化成功

/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at chenzhen/192.168.109.138(当前节点的ip值)
************************************************************/
如果格式化失败：需要去检查之前各项配置

(2).多次格式化会出现从节点jps命令下的DataNode找不到

解决方法：到hadoop根目录下的dfs目录，然后删除里面的data目录。
在这里插入图片描述
将所有出问题的从机下都进行此操作。

10.配置hadoop-native库

在网上下载文件，解压到hadoop下的指定目录即可

tar -xf hadoop-native-64-2.6.0.tar -C /opt/bigdata/hadoop/hadoop260/lib/native/

11.配置从机上的hadoop

因为这里的配置几乎都是在hadoop260/etc/hadoop目录下，所以可以直接远程拷贝该文件到从机的该目录下，当然hadoop文件要在从机上解压好。

在根目录下执行下面的操作
scp /etc/hadoop  root@OHTER_HOSTNAME:/opt/bigdata/hadoop/hadoop260/etc

然后再按上面的第八步配置一下环境变量即可

12.启动 hadoop

进入bin目录

cd /opt/bigdata/hadoop/hadoop260/bin

执行

start-all.sh（过期指令，但暂时可以使用）

如果遇到要输入密码，可以先操作以下步骤

cd ~
cd .ssh/
cat id_rsa.pub >> authorized_keys 
ssh localhost

然后再重新启动
关闭的话可以使用

stop-all.sh

再启动 jobhistory

cd ../sbin/
./mr-jobhistory-daemon.sh start historyserver

查看集群启动状态

执行jps

主节点上出现

7329 Jps
6548 SecondaryNameNode
6264 NameNode
6697 ResourceManager
7259 JobHistoryServer

从节点上出现

6800 NodeManager
7329 Jps
6387 DataNode

并且浏览器访问三个网址，上面信息正确

http://192.168.109.138: 50070 8088 19888

这就说明集群配置正确

怡情灬XiaoBai

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录