1.什么是Hadoop.
Hadoop是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理。
与其他的大数据组件的关系(如Spark、Kafka、Flume等)
- Spark可以在Hadoop的HDFS(Hadoop Distributed File System)上读写数据,也可以使用Hadoop YARN(Yet Another Resource Negotiator)作为集群管理器。
- Kafka可以作为Hadoop集群的数据源,将数据流导入Hadoop进行批处理和分析。
- Flume可以与Hadoop集成,将收集的日志数据发送到HDFS进行存储,以供后续的分析和处理。
总的来说,Hadoop、Spark、Kafka和Flume等大数据组件共同构成了一个强大的生态系统,为处理和分析海量数据提供了全面的支持。这些组件之间的互补关系使得大数据处理变得更加高效和灵活。
2.Hadoop搭建
安装虚拟机
如何安装虚拟机可到这篇文章去安装:vmware-17虚拟机安装教程(保姆级,包含图文讲解,不需注册账户)_vmware 17-CSDN博客
创建虚拟机
这里选择自定义
默认选择下一步
这里需要选择镜像
注:需要下载镜像请移步到该文章下载:Centos7 镜像下载_centos7下载-CSDN博客
下一步
这里需要写该虚拟机的用户名以及该虚拟机的密码
自定义名称
自定义名称之后的步骤默认下一步不需要改动
完成后可以开启虚拟机
输入前面你设置的密码
这就进入了虚拟机系统内
完成后我们需要远程连接虚拟机
MobaXterm安装
需要下载MobaXterm来帮助我们
下载安装详情请移步到这篇文章:运维工具之MobaXterm工具安装和使用-CSDN博客
3.设置静态IP
安装好MobaXterm后我们回到虚拟机
进入终端切入超级用户,命令:su
输入密码后就切换到超级用户
输入命令:
vi /etc/sysconfig/network-scripts/ifcfg-ens33
修改文件并在文件尾部加入IP(i键修改文件、Ctrl+:wq保存退出)
如何查看我们的IP地址:
打开编辑
选虚拟编辑器
左下角便能看到我们的IP地址
我们在3~254任意选择数字做我们的最后一位IP数字,前三位数字与子网IP一致
我们要确认是否修改成功再次输入修改命令确认即可
重启网卡
service network restart
出现OK即重启成功
如果失败则是
解决方法
4.远程连接虚拟机
打开MobaXterm进行以下操作
关闭防火墙
我们要关闭防火墙,以便我们后续的连接不受限制
查看防火墙状态命令:systemctl status firewalld
关闭防火墙:stemctl stop firewalld
禁止防火墙自启动:systemctl is-enabled firewalld
设置主机名
命令:hostnamectl set-hostname 虚拟机的名字
使用logout命令登出再重新登录,用户名已经改变
5.安装Java
使用java -version命令,查看系统自带的jdk
卸载掉自带的jdk
命令:
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
将自己下载好的压缩包拖拽到/opt/目录下
使用命令:tar -xzvf jdk-8u221-linux-x64.tar.gz -C /opt解压
在/etc/profile.d下创建一个为my_env.sh的新文件,进行配置JAVA环境变量,命令:vi /etc/profile.d/my_env.sh
添加以下代码
#JAVA_HOME
export JAVA_HOME=/opt/jdk1.8.0_221
export PATH=$PATH:$JAVA_HOME/bin
验证java是否安装成功:java -version
6.安装Hadoop
与安装Java没有大的差别
先拖拽文件到opt路径下
cd命令进入路径,解压:tar -xzvf hadoop-3.1.3.tar.gz -C /usr/local
与Java同理在my_env.sh添加保存
#HADOOP_HOME
export HADOOP_HOME=/usr/local/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
重启profile,命令:source /etc/profile
使用命令hadoop version检查是否安装成功
这样就已全搭建完毕,安装好Java与Hadoop后还需要配置相关文件才能启动集群。
7.总结:
Hadoop的使用需要到相关集群的启动,所以前期的配置是不能少的,少一步就会导致后期集群的开启出差错。