hadoop的安装包中的conf目录,那里有很多配置,但只需对其中的三个文件进行修改:core-site.xml,hdfs-site.xml 和mapred-site.xml。
1、首先我们修改core-site.xml文件:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
这个是hadoop的核心配置,至少需要配置HDFS的地址及端口号,以上是最简单的配置方法。这里详细说明一下:fs.default.name 用于指定NameNode的IP地址和端口号,localhost就是HDFS NameNode的地址,9000是HDFS的NameNode RPC交互端口。
2、配置hdfs-site.xml
这里主要配置HDFS的相关属性参数,简单配置如下:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/home/moon/hdfs-filesystem/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/moon/hdfs-filesystem/data</value>
</property>
</configuration>
这里的moon是我的用户,建议把文件都放里面,我之前就是放在别的文件,还没有权限,一直permission denied。dfs.replication 用于指定HDFS中每个Block块被复制的次数,起到数据冗余备份的作用。一般经常设置为3,这里是伪分布式,只有一个节点,一次设置为1。dfs.name.dir用于配置HDFS的NameNode的元数据,以逗号隔开,HDFS会把元数据冗余复制到这些目录下。dfs.data.dir用于配置HDFS的DataNode的数据目录,会把数据存在这些目录下。
3、配置map-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
mapred.job.tracker是MapReduce Jobtracker 的ip地址以及端口号,localhost就是MapReduce Jobtracker的地址,9001是MapReduce Jobtracker RPC交互端口。
然后就是配置,然后直接使用hadoop namenode -format用于格式化文件系统。然后start-all.sh启动。ok第二部分完毕。