1、搞明白单机、伪分布式和集群的区别
单机:也称非分布式,是直接读写本地操作系统的文件系统,一般仅用于本地MR程序的调试。直接解压hadoop包就行,无需配置。
伪分布式:在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)。在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。能够访问本地操作系统文件和hdfs文件。
集群:真正的分布式,由3个及以上的实体机或者虚拟机组件的机群。
2、Hadoop配置教程
hadoop配置教程可以参考:
单机配置教程:http://dblab.xmu.edu.cn/blog/install-hadoop/
伪分布式配置教程:http://dblab.xmu.edu.cn/blog/install-hadoop/
集群配置教程: