搭建好单机模式的Hadoop环境以后就可以搭建伪分布式的Hadoop环境了,接下来数据存储在HDFS上进行测试,首先就要对HDFS进行配置。
配置HDFS
配置/opt/app/hadoop2.7/etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<!--这里配置的是NameNode的IP地址和端口号-->
<value>hdfs://hadoop01:8020</value>
<!--hadoop01是NameNode的IP地址的映射,8020是端口号,注意端口号是 唯一的,否则会发生冲突-->
</property>
<property>
<name>hadoop.tmp.dir</name>
<!--这个文件夹会创建一个临时文件,并且存储fsimage-->
<value>/var/hadoop/data</value>
<!--这个路径不需要创建,在格式化namenode的时候会自动创建-->
</property>
</configuration>
配置/opt/app/hadoop2.7/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<!--这里配置的是副本数量-->
<value>1</value>
<!--1表示有1个副本-->
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<!--配置secondarynamenode节点-->
<value>hadoop01:50090</value>
<!--hadoop01是secondarynamenode节点的IP地址的映射(因为是单机版所以写自己就行)-->
</property>
</configuration>
配置从节点/opt/app/hadoop2.7/etc/hadoop/slaves也就是datanode,单机版写自己就行。
都配置好以后执行 bin/hadoop namenode -format 来格式化namenode节点,然后执行start-dfs.sh 来启动集群。启动集群后可以通过jps查看启动节点的信息,前面是id号。