版权属于: Postbird - There I am , in the world more exciting!
原文地址: http://www.ptbird.cn/hadoop-configure-more.html
转载时必须以链接形式注明原始出处及本声明。
Hadoop在进行namenode -format的前(伪分布)一般会选择默认的配置,除了指定备份和tmp目录。
还有一些其他的配置在真正集群的时候也是一定要进行配置的。
简单记录一下hadoop的主要配置文件中core-site.xml / hdfs-site.xml /mapred-site.xml/ yarn-site.xml的配置。
一、core-site.xml
真实环境是需要指定域名而不能是localhost
二、hdfs-site.xml
dfs.replication 是备份块数,这台机器我是伪分布安装的,就给了1块
permissions是权限检查,应该true
namenode.http-address : namenode的web地址
namenode.secondary.httpaddress : secondary namenode 的web地址
namenode.name.dir : 指定namenode的数据存储的本地目录,默认是在tmp下的一个文件夹,单独拿出来
namenode.name.edits : 同样的道理
checkpoint就是secondary namenode的数据存储本地目录和日志目录。
三、yarn-site.xml
配置resourcemanager的hostname
配置jobhistory的address
配置webapp的address
四、slaves
将slaves中的主机名改成 hadoop-yarn.ptbird.cn 而不是localhost,因为上面配置都是使用的这个地址。
五、注意的问题
如果已经format,重新配置后为了省去麻烦,再次format的时候,最好删除掉之前/data/dfs/的内容,否则即使format成功了,很多服务也起不来。
最常见的问题是datanode起不来,因为clusterId已经记录过了,再次format会产生新的clusterId。
最好的做法是:
删除/data/dfs/*后,重启,然后再次format。