Hadoop基础（安装与启动集群）

最新推荐文章于 2024-07-25 09:48:00 发布

正橙橙橙橙

最新推荐文章于 2024-07-25 09:48:00 发布

阅读量449

点赞数

分类专栏： Hadoop入门文章标签： hadoop 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Chengzheng119/article/details/120970131

版权

Hadoop是一个又Apache基金会所开发的分布式系统基础架构。主要用于解决海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop也只Hadoop的生态圈。

相关Apache的开源软件：Index of /dist

Hadoop具有的优势：

高可靠性：Hadoop底层维护多个数据副本，避免某个节点故障导致的数据丢失。

高扩展性：可以通过增加节点的方式，拓展集群

高效性：在MapReduce的思想下，Hadoop是并行的

高容错性：能自动的失败的任务重新分配。

1.Hadoop的架构（左：1.x 右：2.x 现在的3.x与2.x差距不大）

1.x的计算与资源调度还处于耦合状态，在2.x中就引入了Yarn进行资源的管理。降低了耦合度，将计算与资源管理解耦。

2.HDFS架构

Hadoop Distributed File System 简称HDFS，是一个分布式文件系统。

HDFS分为

NameNode，即存储文件的元数据。包括文件名、文件目录结构、文件属性，以及每个文件的块列表和块所在的DataNode。

DataNode，用于存储文件块数据，以及块数据的校验和。

SecondaryNameNode，每隔一段时间对NameNode的元数据进行备份，保证NameNode如果宕机，我们的集群还能够继续运行。

3.Yarn

YetAnother Resource Negotiator 是资源的调度协调者，Hadoop的资源管理器。

Yarn分为：

ResourceManager：用于调度资源，是整个集群资源的管理老大。

NodeManager：是单个节点服务器的资源老大。

4.MapReduce架构

MapReduce将计算过程分为了Map和Reduce阶段

1)首先由Map并行处理输入数据

2)在Reduce阶段对Map结果进行汇总。

大数据技术生态：

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；

3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；

4）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5）Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6）Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。

7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

5.搭建Hadoop运行环境（细节或bug自行查百度）

将VMwareworkstations安装好，安装好虚拟机。可以勾选安装开发环境。这样可以配置上gcc

由于构建集群至少需要三台机器。所以先配置好第一台的基础信息，克隆两台。

关闭防火墙！同时关闭防火墙开机自启动！

[root@Hadoop-1 ~]# systemctl stop firewalld

[root@Hadoop-1 ~]# systemctl disable firewalld.service

在opt/目录下，或者自己新建一个export目录。里面创建softwares和servers文件夹。用于保存安装软件的安装包以及安装目录。

卸载虚拟机自带的openJDK，并且安装上完整版的JDK。然后在/etc/profile里直接配置环境变量。之后记得source配置文件，让其生效。

修改三台机器的网络连接模式，并且使用静态IP，将网络连接模式转换成NAT模式，注意虚拟网卡有没有安装好。（若没有虚拟网卡，用ccclean完全删除VMware后再用管理员运行，重新安装。）将ip地址配置好。同时在三台主机中添加ip映射。

配置好上述环境，导入Hadoop的hadoop3.x.x.tar.gz 将其安装到serv

最低0.47元/天解锁文章

正橙橙橙橙

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop基础（安装与启动集群）

Hadoop是一个又Apache基金会所开发的分布式系统基础架构。主要用于解决海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop也只Hadoop的生态圈。相关Apache的开源软件：Index of /distHadoop具有的优势：高可靠性：Hadoop底层维护多个数据副本，避免某个节点故障导致的数据丢失。高扩展性：可以通过增加节点的方式，拓展集群高效性：在MapReduce的思想下，Hadoop是并行的高容错性：能自动的失败的任务重新分配。1.Hadoop的架构
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。