Hadoop集群配置
配置hadoop之前,需要在hosts文件中添加主机名和ip地址的映射。例如:
master.hadoop 1.2.3.4
slaver1.hadoop 1.2.3.5
.......
/etc/profile中只需要JAVA_HOME的路径就可以了。没有必要设置HADOOP_HOME变量。否则会报warning,但并不影响运行。
一、core-site.xml
<!-- fs.default.name - 这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。--> <property> <name>fs.default.name</name> <value>hdfs://localhost:54310</value> </property> <!-- hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在这个路径中--> <property> <name>hadoop.tmp.dir</name> <value>/home/hdfs/tmp</value> </property>
二、hdfs-site.xml
<!-- dfs.replication -它决定着 系统里面的文件块的数据备份个数。对于一个实际的应用,它 应该被设为3(这个数字并没有上限,但更多的备份可能并没有作用,而且会占用更多的空间)。少于三个的备份,可能会影响到数据的可靠性(系统故障时,也许会造成数据丢失)--> <property> <name>dfs.replication</name> <value>1</value> </property>
<!-- mapred.job.tracker -JobTracker的主机(或者IP)和端口。--> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property>
四、master(仅需在namenode上配置)
master.hadoop
五、slavers(仅需在namenode上配置)
slaver1.hadoop
slaver2.hadoop
附:
一个对配置文件中各个属性的解释:http://blog.csdn.net/yangjl38/article/details/7583374
安装和配置document:http://www.hadooper.cn/dct/page/65672