搭建Hadoop伪分布式集群

最新推荐文章于 2024-09-13 18:41:14 发布

m0_58540923

最新推荐文章于 2024-09-13 18:41:14 发布

阅读量245

点赞数

文章标签：分布式 hadoop 大数据

本文链接：https://blog.csdn.net/m0_58540923/article/details/132066586

版权

【实验内容】

1. 构建Linux系统环境，在Windows系统上安装Linux虚拟机，建议电脑比较新或者配置内存8G以上的电脑可以选择虚拟机安装。

2. 在Linux环境下完成伪分布式环境的搭建，并运行Hadoop自带的WordCount实例检测是否运行正常。

【实验目的】

1. 掌握Linux虚拟机安装方法。Hadoop在Linux操作系统上运行可以发挥最佳性能，鉴于目前很多学生可能正在使用Windows操作系统，因此，为了本教学的后续实验，这里有必要通过本实验让学生掌握在Windows操作系统上搭建Linux虚拟机的方法。

2. 掌握Hadoop的伪分布式安装安装方法。为了进一步学习Hadoop其他组件的使用，需要通过本实验让学生们掌握在单机上进行Hadoop的伪分布式安装方法，以及在三台虚拟机上进行Hadoop的完全分布式安装方法。

【实验技术/工具清单】

为了保证能顺畅地运行Hadoop集群，并能够进行基本的大数据开发调试，建议个人计算机硬件的最低配置为：内存至少8GB，硬盘可用容量至少100GB，CPU为Intel i5以上的多核（建议八核及以上）处理器。Hadoop相关软件安装包及其版本说明。

【实验原理/思路】

实训1：创建Linux虚拟机

（1）下载VMware安装包“VMware-workstation-full-15.5.5-16285975.exe”

（2）双击下载的VMware安装包，选择安装的目录，再单击“下一步”按钮，继续安装，之后输入产品序列号，即成功安装VMware软件。

（3）打开安装好的VMware软件，进入VMware主界面，选择“创建新的虚拟机”选项。

（4）通过vi命令查看/etc/sysconfig/network-scripts/ifcfg-ens33配置文件设置固定IP。

（5）通过XShell工具远程连接虚拟机。

实训2：JDK安装

（1）下载JDK

（2）安装JDK

（3）配置JDK环境变量

（4）JDK环境变量验证

实训3：Hadoop集群配置

（1）下载Hadoop安装包

（2）解压安装Hadoop。

（3）配置Hadoop环境变量

（4）验证Hadoop环境

实训4：配置SSH免密码登录

使用ssh-keygen产生公钥与私钥对。使用“ssh-keygen -t rsa ”命令，接着按3次“Enter ”键，生成私有密钥id_rsa和公有密钥id_rsa.pub两个文件。使用命令“cat ./id_rsa.pub >> ./authorized_keys”将密钥加入到授权中，即可ssh localhost不需要密码验证。

实训5：启动监控集群

（1）完成Hadoop的所有配置后，可执行格式化NameNode操作，格式化只需使用“hdfs namenode -format”命令，若出现“Storage directory /data/hadoop/ hdfs/name has been successfully formatted”提示，则表示格式化NameNode成功。

（2）格式化完成后即可启动Hadoop集群，启动Hadoop集群只需要在hadoop01节点直接进入Hadoop安装目录，使用sbin文件夹里启动文件即可启动Hadoop集群。

（3）在节点hadoop01上执行“start-all.sh”或“stop-all.sh”指令，直接启动/关闭整个Hadoop集群服务。

（4）集群启动之后，在主节点hadoop01可以使用“jps”命令，出现下图的信息，说明集群启动成功。

（5）在浏览器的地址栏输入“http://hadoop01:9870 ” ，按回车键即可看到HDFS的监控界面。