Hadoop集群的搭建和配置

序言:通过文章简要介绍简要介绍Hadoop集群的重要性和应用场景,以及搭建和配置Hadoop集群的基本步骤和难点

一、学习背景

在大数据时代,Hadoop以其高效处理海量数据的能力,成为了企业和研究机构不可或缺的工具。本次学习,我深入了解了Hadoop集群的搭建和配置过程,旨在提升对Hadoop集群管理的实际操作能力。

二、Hadoop集群搭建步骤

在此之前我们需要安装VMware,在VMware里面安装Centos7系统

还需要下载一个hadoop安装包并安装,这个在后面的应用中非常重要。

  1. 设置静态IP

切换超级用户,命令:su

固定IP:

查看和修改文件

vi /etc/sysconfig/network-scripts/ifcfg-ens33

点击 i 键,更改当前编辑模式(切换为输入模式insert),Esc键退出编辑模式,:wq保存并退出,如果出现错误不能退出 !q 强制退出。

在编辑ifcfg-ens33文件时,您可能会修改以下一些常见的参数:
  • BOOTPROTO:设置网络启动协议,通常设置为static(静态)或dhcp(动态主机配置协议)。
  • IPADDR:静态IP地址(如果BOOTPROTO设置为static)。
  • NETMASK:子网掩码。
  • GATEWAY:默认网关地址。
  • DNS1DNS2:首选和次选DNS服务器地址。

YPE="Ethernet"PROxY METHOD="none"BROWSER ONLY="no""BOOTPROTo"static"DEFROUTE=yes"

IPv4FAILURE_FATAL="no"IPv6INIT="yes"

IPv6_AUTOCONF="yes"IPv6_DEFROUTE="yes"

IPv6_FAILURE_FATAL=" no"

IPv6ADDR_GEN_MODE="stable-privacy"NAME="ens33"

UUID="c23e67f1-dd7e-464b-bfcd-eea2f949c11c"DEVICE="ens33"

ONBOOT='yes'

IPADDR=192.168.53.100

GATEWAY=192.168.53.2

NETMASK=255.255.255.0

DNS1=8.8.8.8

IP网段查询:

编辑->虚拟网络编辑器->查看VMnet8的子网地址,前面3个就是我们的IP网段192.168.53.XXX

一切成功后重启网关:
service network restart

显示OK ,我们继续下一步

三、远程连接虚拟机

  1. 准备虚拟机
    • 确保虚拟机已经安装并运行,例如CentOS、Ubuntu等。
    • 在虚拟机中安装并启动SSH服务。对于Ubuntu或Debian系统,可以使用sudo apt install openssh-server命令来安装SSH服务。对于CentOS或Red Hat系统,可以使用sudo yum install openssh-server(或在新版本中可能是sudo dnf install openssh-server)。
    • 启动SSH服务后,可以使用sudo systemctl start sshd命令来确保SSH服务正在运行。
    • 在虚拟机中关闭防火墙或允许SSH连接通过防火墙。对于使用firewalld的系统,可以使用sudo systemctl stop firewalld命令来停止防火墙服务,或者使用sudo firewall-cmd --add-service=ssh --permanentsudo firewall-cmd --reload命令来允许SSH连接。
  2. 获取虚拟机的IP地址和用户名
    • 在虚拟机中打开终端,输入ifconfigip addr命令来查看网络接口的IP地址。找到虚拟机用于外部连接的网络接口(如eth0或ens33),并记下其IP地址。
    • 虚拟机的用户名通常是你在安装虚拟机时设置的用户名,或者你可以使用root用户(但出于安全考虑,通常不建议使用root用户进行远程连接)。
  1. 使用MobaXterm连接虚拟机
    • 打开MobaXterm软件。
    • 点击界面左上角的“Session”按钮,或者从菜单栏中选择“Session”选项。
    • 在弹出的窗口中,选择“SSH”作为连接类型。
    • 在“Remote host”字段中输入虚拟机的IP地址。
    • 在“Specify username”字段中输入虚拟机的用户名。
    • 点击“OK”按钮。
    • 如果虚拟机设置了SSH密钥认证,你需要在MobaXterm中配置相应的私钥文件。如果设置了密码认证,则需要在弹出的窗口中输入虚拟机的密码。
    • 显示页面:

  1. 验证连接
    • 如果连接成功,你将在MobaXterm的终端窗口中看到虚拟机的命令提示符。
    • 现在你可以通过MobaXterm远程执行虚拟机上的命令和操作了。

四、防火墙

  1. 查看防火墙状态:systemctl status firewalld

active(running)表示防火墙在启动状态

      2.关闭防火墙:systemctl stop firewalld

inactive(dead)表示已经关闭防火墙了

3.查看防火墙是否开机自启:systemctl is-enabled firewalld
  • enabled:表示开机自启
  • disabled:表示开机不自启
4.禁止防火墙开机自启,命令:systemctl disable firewalld

五、设置主机名

hostnamectl set-hostname master

master是主机名,使用logout命令登出,再重新登录,用户名改变。

设置主机名和IP的映射

vi /etc/hosts

一般ip+主机,如192.168.203.200 master

需要添加当前主机名和其他副本

需要安装java和hadoop这个不过多解释,请自行查找资料

六、配置文件修改

  • 编辑core-site.xml,设置Hadoop核心参数,如文件系统类型、NameNode地址等。
  • 编辑hdfs-site.xml,配置HDFS相关参数,如数据块大小、副本数等。
  • 编辑mapred-site.xml(可能需从mapred-site.xml.template复制),配置MapReduce框架参数。
  • 编辑yarn-site.xml,配置YARN资源管理器参数,如NodeManager地址、内存分配等。
集群启动与测试
  • 使用start-dfs.shstart-yarn.sh脚本启动Hadoop集群。
  • 使用jps命令检查NameNode、DataNode、ResourceManager、NodeManager等进程是否启动成功。
  • 通过HDFS命令行工具进行文件上传、下载、查看等操作,验证HDFS功能。
  • 提交MapReduce任务,测试Hadoop集群的数据处理能力

hdfs namenode -format开启集群(注意只开一次)

  1. 启动集群

进入Hadoop安装目录:cd $HADOOP_HOME

                                      sbin/start-dfs.sh

                                       sbin/start-yarn.sh

                                        mapred --daemon start historyserver

      2.关闭集群

                           

                             cd $HADOOP_HOME

                             sbin/stop-yarn.sh

                             sbin/stop-dfs.sh

                             mapred --daemon stop historyserver

监控Hadoop集群

1.HDFS监控--sbin/start-dfs.sh

http://192.168.53.100:9870/

2.Yarn监控--sbin/start-yarn.sh

http://master:8088/或者http://192.168.53.100:8088/

3.日志监控--mapred --daemon start historyserver

http://master:19888/或者http://192.168.53.100:19888/

请根据自己的网络IP改

七、学习难点与解决方案

  1. SSH免密登录配置:在配置SSH免密登录时,可能会遇到权限问题或密钥不匹配的问题。解决方案是仔细检查密钥文件的权限和格式,确保密钥匹配并正确放置。
  2. 配置文件参数设置:Hadoop的配置文件参数众多,初学者容易混淆。解决方案是参考官方文档和社区经验,结合实际需求进行配置。
  3. 集群启动失败:在启动Hadoop集群时,可能会遇到进程启动失败的情况。解决方案是查看日志文件,根据错误信息进行排查和修复。

八、学习感悟

通过本次学习,我深刻体会到Hadoop集群搭建和配置的复杂性和挑战性。然而,在不断尝试和解决问题的过程中,我也收获了很多宝贵的经验。我明白了在搭建Hadoop集群时,需要充分考虑硬件环境、操作系统和Hadoop版本之间的兼容性;在配置Hadoop时,需要仔细阅读官方文档和社区经验,确保每个参数都设置得合理和准确。同时,我也意识到在大数据领域,持续学习和实践是非常重要的。当然,学会查找资料,网络分析的去解决问题是必要的,想要长期的发展,只有不断学习和实践,才能更好地掌握Hadoop等大数据技术,为企业创造更大的价值。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
Hadoop集群搭建实验的收获和感想主要包括以下几个方面: 收获: 1. 技术知识:通过实验,深入了解了Hadoop生态系统中的核心组件,如HDFS、MapReduce、YARN等。掌握了如何配置和部署集群,以及如何使用Hadoop工具进行数据存储、处理和分析。 2. 实践经验:实验中遇到了许多实际问题,如网络配置、节点故障等,通过解决这些问题,积累了宝贵的实践经验。 3. 集群管理:学会了如何管理和维护Hadoop集群,包括监控集群状态、调整资源配置、优化性能等。 4. 大数据处理:认识到Hadoop在处理大数据方面的优势,如高吞吐量、低延迟、可扩展性等。这为今后在大数据领域的工作或学习中提供了坚实的基础。 感想: 1. 挑战与成就感:实验过程中遇到了许多挑战,如复杂的配置过程、漫长的部署时间等。但每当解决一个问题,都会感到非常有成就感。 2. 团队合作:搭建Hadoop集群需要多人的协作,大家共同解决问题、分享信息,有助于增强团队凝聚力。 3. 持续学习:Hadoop是一个不断发展的生态系统,需要持续学习以跟上技术的发展。实验过程中学到的知识只是冰山一角,后续还需要进一步深入学习。 4. 实际应用:通过实验,深刻体会到Hadoop在现实生活中的应用,认识到大数据的重要性,以及掌握Hadoop技术的重要性。 总的来说,通过搭建Hadoop集群实验,不仅提高了技术水平,还积累了实践经验,了解了大数据的实际应用,并认识到持续学习的重要性。同时,也感受到了挑战与成就感的交织,以及团队合作的价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是大风呀~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值