【实验内容】
1. 构建Linux系统环境,在Windows系统上安装Linux虚拟机,建议电脑比较新或者配置内存8G以上的电脑可以选择虚拟机安装。
2. 在Linux环境下完成伪分布式环境的搭建,并运行Hadoop自带的WordCount实例检测是否运行正常。
【实验目的】
1. 掌握Linux虚拟机安装方法。Hadoop在Linux操作系统上运行可以发挥最佳性能,鉴于目前很多学生可能正在使用Windows操作系统,因此,为了本教学的后续实验,这里有必要通过本实验让学生掌握在Windows操作系统上搭建Linux虚拟机的方法。
2. 掌握Hadoop的伪分布式安装安装方法。为了进一步学习Hadoop其他组件的使用,需要通过本实验让学生们掌握在单机上进行Hadoop的伪分布式安装方法,以及在三台虚拟机上进行Hadoop的完全分布式安装方法。
【实验技术/工具清单】
为了保证能顺畅地运行Hadoop集群,并能够进行基本的大数据开发调试,建议个人计算机硬件的最低配置为:内存至少8GB,硬盘可用容量至少100GB,CPU为Intel i5以上的多核(建议八核及以上)处理器。Hadoop相关软件安装包及其版本说明。
【实验原理/思路】
实训1:创建Linux虚拟机
(1)下载VMware安装包“VMware-workstation-full-15.5.5-16285975.exe”
(2)双击下载的VMware安装包,选择安装的目录,再单击“下一步”按钮,继续安装,之后输入产品序列号,即成功安装VMware软件。
(3)打开安装好的VMware软件,进入VMware主界面,选择“创建新的虚拟机”选项。
(4)通过vi命令查看/etc/sysconfig/network-scripts/ifcfg-ens33配置文件设置固定IP。
(5)通过XShell工具远程连接虚拟机。
实训2:JDK安装
(1)下载JDK
(2)安装JDK
(3)配置JDK环境变量
(4)JDK环境变量验证
实训3:Hadoop集群配置
(1)下载Hadoop安装包
(2)解压安装Hadoop。
(3)配置Hadoop环境变量
(4)验证Hadoop环境
实训4:配置SSH免密码登录
使用ssh-keygen产生公钥与私钥对。使用“ssh-keygen -t rsa ”命令,接着按3次“Enter ”键,生成私有密钥id_rsa和公有密钥id_rsa.pub两个文件。使用命令“cat ./id_rsa.pub >> ./authorized_keys”将密钥加入到授权中,即可ssh localhost不需要密码验证。
实训5:启动监控集群
(1)完成Hadoop的所有配置后,可执行格式化NameNode操作,格式化只需使用“hdfs namenode -format”命令,若出现“Storage directory /data/hadoop/ hdfs/name has been successfully formatted”提示,则表示格式化NameNode成功。
(2)格式化完成后即可启动Hadoop集群,启动Hadoop集群只需要在hadoop01节点直接进入Hadoop安装目录,使用sbin文件夹里启动文件即可启动Hadoop集群。
(3)在节点hadoop01上执行“start-all.sh”或“stop-all.sh”指令,直接启动/关闭整个Hadoop集群服务。
(4)集群启动之后,在主节点hadoop01可以使用“jps”命令,出现下图的信息,说明集群启动成功。
(5)在浏览器的地址栏输入“http://hadoop01:9870 ” ,按回车键即可看到HDFS的监控界面。
【实验步骤】
- 创建Linux虚拟机
- JDK安装、环境变量配置、验证
- 配置SSH免密码登录
- Hadoop伪分布式集群配置
- 启动/停止集群、通过Web监控集群状态
【实验记录与结果分析】
实现步骤和执行结果截图。
1.创建Linux虚拟机 2.JDK安装、环境变量配置、验证 3.配置SSH免密码登录 4.Hadoop伪分布式集群配置 (1).在hadoop-env.sh文件下增加Java的环境变量 (2).在core-site.xml文件下增加配置参数 (3).修改Linux的hostname为hadoop (4).在hdfs.site.xml增加hdfs的配置参数 (5).在yarn-env.sh文件下增加Java的环境变量 (6).在mapred-site.xml文件下设置mapreduce的框架及其环境变量 (7).在yarn-site.xml文件下配置主机名和地址及其辅助的服务 5.启动/停止集群、通过Web监控集群状态 |