1. 环境准备
-
Java环境:
- 在所有节点上安装相同版本的Java,推荐使用 Java 8 或更高版本。
- 设置
JAVA_HOME
环境变量。
-
SSH免密码登录:
- 配置所有节点之间的SSH免密码登录,以便于集群管理。
2. 安装Hadoop
-
下载Hadoop:
- 下载最新稳定版本的Hadoop二进制包。
- 常见的下载地址:https://hadoop.apache.org/releases.html
-
解压并安装:
- 在每台机器上解压缩Hadoop安装包。
- 设置
HADOOP_HOME
环境变量。
3. 配置Hadoop
- 编辑配置文件:(位于$HADOOP_HOME/etc/hadoop/目录中)
修改core-site.xml
,hdfs-site.xml文件
配置workers文件
core-site.xml
fs.defaultFS
: 这个属性定义了 Hadoop 集群中文件系统的默认名称节点(NameNode)的地址。
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
其中 master
是 NameNode 主机名,9000
是 NameNode 监听的端口号。
hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/hadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/hadoop/tmp/dfs/data</value>
</property>
</configuration>
dfs.namenode.name.dir
: 这个属性指定了 NameNode 存储元数据的位置。
dfs.datanode.data.dir
: 这个属性指定了 DataNode 存储实际文件数据的位置。
注:需要根据自己的配置在对应的位置上创建目录
workers:用于指定哪些节点将作为 DataNodes 参与 Hadoop 分布式文件系统 (HDFS)
192.168.1.101
192.168.1.102
192.168.1.103
也可以使用主机名,但需要配置映射关系。
每个 DataNode 的主机名或 IP 地址应单独占一行。
4. 格式化NameNode
在更改完配置后需格式化NameNode
在NameNode上运行 hadoop namenode -format
5. 启动Hadoop
1.一键启动( 前提:配置好机器之间的SSH免密登录和workers文件)
start-dfs.sh
2.手动逐个进程启停
hdfs --daemon start|stop namenode|datanode|secondarynamenode
检查服务状态:
- 使用
jps
命令检查各节点上的守护进程是否正常启动