快速部署Hadoop+MySQL+Hive+Spark的集群

目录

一、在Linux系统下我们要配置时钟同步(有两种,这里我就说一种)、配置主机名、配置网络环境、关闭防火墙:

(1)、配置自动时钟同步

(2)、配置主机名(这里我们在克隆后的克隆机上需要重新修改成对应的主机名)

(3)、使用 setup 命令配置网络环境(这里我们在克隆后的克隆机上需要重新修改成对应的主机ip)

(4)、关闭防火墙

二、配置hosts文件列表

三、安装JDK

四、Hadoop 集群配置

(1)、配置环境变量hadoop-env.sh

(2)、配置环境变量yarn-env.sh

(3)、配置核心组件core-site.xml

(4)、配置文件系统 hdfs-site.xml

(5)、配置系统文件yarn-site.xml

(6)、配置计算框架mapred-site.xml

(7)、配置slaves文件

(8)、配置 Hadoop 启动的系统环境变量

(9)、创建数据目录

五、安装部署Hive

(1)、在 /home/trzy 下将Hive的包解压。

(2)、启动MySQL(使用root用户)

(3)、创建hadoop用户、创建数据库。

(4)、退出MySQL

(5)、配置Hive

(6)、将 mysql 的 java connector 复制到依赖库中

(7)、配置Hive的环境变量:

六、安装部署Spark

(1)、配置Spark的slaves文件:

(2)、 配置Spark的spark-env.sh

(3)、配置 Hadoop 环境变量

七、克隆虚拟机

(1)、分别在slave1、slave2在设置IP

(2)、分别修改slave1、slave2的主机名

(3)、检测三台虚拟机是否相通:

(4)、免密钥登录配置(在普通用户下运行)

八、正式启动Hadoop+Hive+spark

(1)、在master上格式化。

(2)、在master上启动(停止)hadoop。

(3)、启动HIve。

 (4)、Spark启动(停止)。

九、 总结。


对于学习Hadoop时,可能有朋友想快速搭建一个Hadoop集群,所以我现在自己将觉得是可以快速搭建的方法分享给大家,大多数的配置参数是来自我们老师发给我们的文档的,如果你有自己想要的配置参数可以查看Hadoop文档

这个文章是主要是写给我们班上的同学的,是学习记录,如果有什么错误之处,还请大佬指点,谢谢!

如果需要下载linux的CentOS镜像文件可以参考:Centos6.5镜像下载_你的破壁人呀的博客-CSDN博客_centos6.5

对于在VMware Workstation Pro中创建虚拟机我就不多说了,我就假定拥有linux系统的虚拟机大家都安装好了,现在我们开始搭建我们的Hadoop吧(所谓快速搭建Hadoop集群,就是在一台虚拟机中将相关的配置都配好,然后我们在克隆就行(克隆几台就看你想要几台,这里我配置三台)!

@搭配前的准备@:

1、我们需要将需要的包下载好并且上传到linux上的/home/trzy/的用户下。

(1)、spark-2.4.4-bin-hadoop2.7.tgz

链接:https://pan.baidu.com/s/1t6mYjdJteWIACnUyPuKbXw 
提取码:8888

(2)、apache-hive-2.3.6-bin.tar.gz

链接:https://pan.baidu.com/s/11z0Bn2gr6-hLZhRS5Cbccw 
提取码:8888

(3)、hadoop-2.7.7.tar(2).gz

链接:https://pan.baidu.com/s/15q7b2-uil2kGd8M0ABA1tw 
提取码:8888

(4)、jdk-8u221-linux-x64.tar(1).gz

链接:https://pan.baidu.com/s/1qoqP1YfpeiUibQ37T6twSQ 
提取码:8888

(5)、mysql-5.7.37-linux-glibc2.12-x86_64.tar.gz

链接:https://pan.baidu.com/s/1cNl_7iziLreuDlKLIohwJA 
提取码:8888

(6)、mysql-connector-java-5.1.27-bin(1).jar

链接:https://pan.baidu.com/s/1qo_HGsZ6i85bngsxpA5pWQ 
提取码:8888

2、我使用的上传工具是:SSH Secure Shell(使用详细在文章最后)

链接:https://pan.baidu.com/s/1nTGxO3M-3syGWLXNHLZR3g 
提取码:8888

一、在Linux系统下我们要配置时钟同步(有两种,这里我就说一种)、配置主机名、配置网络环境、关闭防火墙:

(1)、配置自动时钟同步

[root@master trzy]$ crontab -e

该命令是 vi 编辑命令,按 i 进入插入模式,按 Esc,然后键入:wq 保存退出 键入下面的一行代码,输入 i,进入插入模式(星号之间和前后都有空格)

0 1 * * * /usr/sbin/ntpdate cn.pool.ntp.org

 如图:

2)、配置主机名(这里我们在克隆后的克隆机上需要重新修改成对应的主机名)

这里我们使用gedit编辑主机名(同时也可以使用vi来编辑主机名)

[root@master trzy]$ gedit /etc/sysconfig/network

如图: 

 配置信息如下,如果已经存在则不修改

NETWORKING=yes #启动网络
HOSTNAME=master #主机名

确认命令生效

[root@master trzy]$ hostname master

检测主机名是否修改成功,可以重新打开一个终端命令窗口检测。

[root@master trzy]$ hostname

如图: 

(3)、使用 setup 命令配置网络环境(这里我们在克隆后的克隆机上需要重新修改成对应的主机ip)

我们先看看自己的IP是什么?

[trzy@master ~]$ ifconfig

如图: 

在终端中执行下面命令:

[root@master trzy]$ setup

会出现如图1: 

现在第四个选项回车

会出现如图2: 

第一个选项回车

 

 会出现如图3:

 第一个选项回车

会出现如图4: 

 

  我们使用上下键移动光标到星号那,按空格将星号去掉,这样我们就可以设置静态IP了,设置如图(注意:设置的IP192.168.220.154的前三个,就是192.168.220一定要和上面我们使用ifconfig查看的红圈中的IP的前三个一样)设置好后我们就OK+回车、Save+回车、  Save&Quit+回车、Quit+回车。

接下来我们就重启网络服务(如果失败,请将eth0换成eth1或eth2等

[root@master trzy]$ /sbin/service network restart

输入结果如图: 

 使用ifconfig查看我们设置的IP是否成功。

(4)、关闭防火墙

在终端中执行下面命令:

[root@master trzy]$ setup

会出现如图: 

现在第二个选项回车: 

 将光标移动到星号的位置,按空格将星号去掉,完成后OK+回车,再Yes+回车,如图:

 

二、配置hosts文件列表

在终端命令中输入:

[root@master trzy]$ gedit /etc/hosts

在打开的文件在输入我们的三台主机IP+主机名(格式:192.168.220.154 master),一台虚拟机一行(slave1与slave2我们先设置为192.168.220.155 slave1与192.168.220.156 slave2,之后我们克隆了slave1与slave2后使用 setup 命令配置网络环境,设置slave们的主机IP)。如图: 

三、安装JDK

我们要将在 /home/trzy 下的jdk-8u221-linux-x64.tar(1).gz文件移动到 /usr/java 下(如果普通用户解压失败,可以使用root用户解压)

[trzy@master ~]$ mkdir /usr
  • 3
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Docker是一种容器化技术,用于创建、部署和管理应用程序的容器。Hadoop是一个分布式计算框架,用于处理大数据集并在集群中进行高速计算。HBase是一个面向列的分布式数据库,用于存储和管理大规模的结构化数据。Hive是一个基于Hadoop的数据仓库基础架构,用于提供简化的查询和分析大数据的能力。而Spark是一个高级的分布式计算系统,用于加速大规模数据处理和分析。 在使用这些技术时,Docker可以用于快速搭建和部署容器化的Hadoop、HBase、HiveSpark环境。使用Docker容器,我们可以轻松地在任何机器上部署这些组件,而无需担心环境配置的问题。 Hadoop是一个开源的分布式计算框架,它可以容纳大规模数据并以可靠的方式在集群中进行处理。通过用Docker容器来运行Hadoop,我们可以更快地搭建和管理Hadoop集群,并且容易进行监控和维护。 HBase是一个分布式数据库系统,以表的形式存储数据,并提供高效的读写操作。通过Docker容器,我们可以轻松地部署HBase集群,并且可以根据需求进行水平扩展,以满足不同规模的数据存储需求。 Hive是一个基于Hadoop的数据仓库基础架构,它提供了类似于SQL的查询接口,方便用户进行大规模数据的查询和分析。使用Docker容器,我们可以轻松地搭建Hive环境,并通过对容器进行配置和管理,优化Hive的性能。 Spark是一个高级的分布式计算系统,它强调内存计算和迭代计算的能力,从而加速大规模数据处理和分析。通过Docker容器,我们可以快速部署和管理Spark集群,并且可以根据需求进行资源配置和任务调度,以实现高性能和高吞吐量的数据处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

会飞的胖猪胖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值