定义
Hadoop伪分布式集群(pseudo distributed cluster),就是在一台主机上模拟多个主机(数据存储节点)。即hadoop的守护程序在本地计算机(这个指的是Linux虚拟机)上运行,模拟集群环境,并且是相互独立的Java进程。
在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由ResourceManager服务来管理的独立进程。
比单节点集群(local mode) 多了代码调试功能,允许检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。
伪分布式集群搭建
- 上传jdk和hadoop压缩包
找到虚拟机,右击选择“设置”,点击“选项”----“共享文件夹”
选择“总是启用”,点击添加按钮
点击浏览,选择Windows下的存放hadoop-2.7.3.tar.gz和
jdk-8u172-linux-x64.tar.gz的文件夹,点击确定。
打开虚拟机,查看根目录下的mnt文件夹下的hgfs文件夹,可看到:通过上一步操作设置的共享文件,可通过虚拟机查询使用
进入文件夹,查看文件,
在用户目录下创建文件夹apps,将/mnt/hgfs/Hadoop下的压缩包文件,拷贝到apps下