1、在$HADOOP_HOME/etc/hadoop/core-site.xml文件
默认配置文件位置 HADOOP_HOME/etc/hadoop
<property>
<name>fs.defaultFS</name>
<!-- 告知NN在哪个机器,NN使用哪个端口号接受客户端和DN的RPC的请求 -->
<value>hdfs://kzw-virtual-machine:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<!-- 告知NN在哪个机器,NN使用哪个端口号接受客户端和DN的RPC的请求 -->
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
2、格式化Namenode(只需要格式化一次)
命令:
hadoop namenode -format
目的:
1、生成/opt/module/hadoop-2.7.2/data/tmp目录
2、在目录中生成fsimage_00000000000文件
3、启动namenode和datanode
启动namnode
hadoop-daemon.sh start namenode
启动datanode
hadoop-daemon.sh start datanode
4、查看
jps
通过浏览器访问 namenode所在主机名/ip :50070
如果namenode和datanode都在一台机器,且只有一个datanode节点,称为伪分布式
二、在Yarn上运行MR
1、修改$HADOOP_HOME/etc/hadoop/mapred-site.xml文件
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
2、启动yarn
配置RM到底在哪个机器启动
修改$HADOOP_HOME/etc/hadoop/yarn-site.xml文件
<!-- 指定yarn的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<!-- <value>kzw-virtual-machine</value> -->
<value>192.168.91.128</value>
</property>
<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
3、启动RM、NM
yarn-daemon.sh start resourcemanager
yarn-daemon.sh start nodemanager
4、查看
jps
http://(RM所在的机器主机名/ip):8088
三、提交任务
hadoop jar jar包 主类名 参数{多个输入目录,一个输出目录}
输入目录必须全部是文件,输出目录必须不存在