HDFS
伪分布安装
- 服务器准备
# 1. 准备虚拟机hadoop10
# 1. 设置hostname
hostnamectl set-hostname hadoop10
# 2. 配置hosts(linux+windows)
vim /etc/hosts
----------以下是文件信息------------
192.168.199.8 hadoop10
补充:
一定要配置windows对集群中所有节点的映射关系。
# 3. 关闭防火墙
systemctl stop firewalld #关闭防火墙
systemctl disable firewalld # 禁止防火墙开机启动。
# 4. 安装jdk1.8
[root@hadoop10 modules]# tar -zxvf jdk-8u171-linux-x64.tar.gz -C /opt/installs/
[root@hadoop10 installs]# mv jdk1.8.0_171/ jdk1.8
# 5. 配置jdk环境变量。
[root@hadoop10 installs]# vim /etc/profile
# JAVA
# JAVA_HOME
export JAVA_HOME=/opt/installs/jdk1.8/
# PATH
export PATH=$PATH:/opt/installs/jdk1.8/bin/
加载配置
source /etc/profile
验证
java
- 安装
1.解压、配置环境变量
# 解压
[root@hadoop10 modules]# tar zxvf hadoop-2.9.2.tar.gz -C /opt/installs/
[root@hadoop10 installs]# mv hadoop-2.9.2 hadoop2.9.2
# 配置环境变量
vi /etc/profile
-------------以下是环境变量-------------
# 配置HADOOP_HOME
export HADOOP_HOME=/opt/installs/hadoop2.9.2
# 配置PATH
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# 生效配置信息(重新执行profile中的指令,加载配置信息)
source /etc/profile
# hadoop目录结构
[root@hadoop10 ~]# tree -L 1 /opt/installs/hadoop2.9.2/
/opt/installs/hadoop2.9.2/
├── bin # hadoop客户端操作相关的脚本程序,hdfs、hadoop、yarn 重要
├── etc # 配置目录xml、文本文件 重要
├── include # 一些C的头文件,无需关注
├── lib # 第三方native实现C实现
├── libexec # hadoop运行时候,加载配置的脚本
├── LICENSE.txt
├── logs # 系统运行日志目录,排查故障! 重要
├── NOTICE.txt
├── README.txt
├── sbin # hadoop服务器端操作相关脚本,通常用于启动服务例如:start|top-dfs.sh 重要
└── share # hadoop运行的依赖jars、内嵌webapp
2.初始化配置文件($HADOOP_HOME/etc/hadoop)
hadoop-env.sh — hadoop环境配置(jdk)
core-site.xml — Hadoop核心配置文件
hdfs-site.xml — HDFS的个性化配置文件 副本因子
slaves — 在哪个节点启动datanode
# hadoop-env.sh
# jdk安装目录
JAVA_HOME=/opt/installs/jdk1.8
# core-site.xml
# 配置hdfs入口
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop10:9000</value>
</property>
# 配置 数据保存位置(hadoop的根目录下新建data目录,会自动创建)
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/installs/hadoop2.9.2/data</value>
</property>
# hdfs-site.xml
# 配置副本个数
<property>
<name>dfs.replication</name>
<value>1</value>
</property>