伪分布式的意思就是集群只有一台服务器
1 安装jdk1.8,注意,jdk版本太高会导致hadoop无法正常启动和运行
2 下载hadoop3.1.3,并上传至服务器解压
3 编辑etc/hadoop/core-site.xml
<configuration>
<!-- 指定 NameNode 的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://127.0.0.1:8020</value>
</property>
<!-- 指定 hadoop 数据的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-3.1.3/data</value>
</property>
<!-- 配置 HDFS 网页登录使用的静态用户为 yang-->
<!--<property>
<name>hadoop.http.staticuser.user</name>
<value>yang</value>
</property>-->
<property>
<name>hadoop.native.lib</name>
<value>false</value>
</property>
</configuration>
4 编辑etc/hadoop/hdfs-site.xml
vim /etc/hostname 得到主机名,待配置使用
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!-- <property>
<name>dfs.datanode.data.dir</name>
<value>file:///data/tmp/hadoop/hdfs/data</value>
</property>-->
<!--设置hadoop网页端的连接>
<property>
<name>dfs.namenode.http-address</name>
<value>主机名:9870</value>
</property>
</configuration>
5 编辑etc/hadoop/yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定 ResourceManager 的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>127.0.0.1</value>
</property>
<!-- 指定 yarn的访问地址-->
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>主机名:8088</value>
</property>
</configuration>
5 编辑etc/hadoop/mapred-site.xml
<configuration>
<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
6 编辑etc/hadoop/hadoop-env.sh
#指定下hadoop的jdk版本,此处需要1.8版本,高版本可能会导致hadoop无法正常启动
export JAVA_HOME=/usr/local/jdk1.8.0_121
export HADOOP_CONF_DIR=/usr/local/hadoop-3.1.3/etc/hadoop
#指定运行hadoop的root用户
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
7 配置环境变量 /etc/profile
export HADOOP_HOME=/usr/local/hadoop-3.1.3
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
8 生效配置 source /etc/profile
9 配置本机免密ssh登录
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
此处如果在home文件夹下没有.ssh目录,执行 ssh localhost
10 首次启动前格式化HDFS
hdfs namenode -format
11 启动Hadoop
./sbin/start-all.sh
12 单独启动
hdfs :start-dfs.sh
yarn: start-yarn.sh
请读者务必注意,现在3.1版本的Hadoop则必须使用start-dfs.sh
命令和start-yarn.sh
命令来分别启动HDFS和Yarn。关闭Hadoop则首先使用stop-yarn.sh
命令,然后使用stop-dfs.sh
命令。
14 测试启动是否成功 ,并开启端口
HDFS:
Yarn: