Hadoop基础(安装与启动集群)

Hadoop是一个又Apache基金会所开发的分布式系统基础架构。主要用于解决海量数据的存储和海量数据的分析计算问题。广义上来说,Hadoop也只Hadoop的生态圈。

相关Apache的开源软件:Index of /dist

Hadoop具有的优势:

高可靠性:Hadoop底层维护多个数据副本,避免某个节点故障导致的数据丢失。

高扩展性:可以通过增加节点的方式,拓展集群

高效性:在MapReduce的思想下,Hadoop是并行的

高容错性:能自动的失败的任务重新分配。

1.Hadoop的架构(左:1.x 右:2.x  现在的3.x与2.x差距不大)

 1.x的计算与资源调度还处于耦合状态,在2.x中就引入了Yarn进行资源的管理。降低了耦合度,将计算与资源管理解耦。

2.HDFS架构

Hadoop Distributed File System 简称HDFS,是一个分布式文件系统。

HDFS分为

        NameNode,即存储文件的元数据。包括文件名、文件目录结构、文件属性,以及每个文件的块列表和块所在的DataNode。

        DataNode,用于存储文件块数据,以及块数据的校验和。

        SecondaryNameNode,每隔一段时间对NameNode的元数据进行备份,保证NameNode如果宕机,我们的集群还能够继续运行。

3.Yarn

YetAnother Resource Negotiator 是资源的调度协调者,Hadoop的资源管理器。

Yarn分为:

        ResourceManager:用于调度资源,是整个集群资源的管理老大。

        NodeManager:是单个节点服务器的资源老大。

4.MapReduce架构

        MapReduce将计算过程分为了Map和Reduce阶段

        1)首先由Map并行处理输入数据

        2)在Reduce阶段对Map结果进行汇总。

 

 大数据技术生态:

1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;

3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统; 

4)Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5)Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6)Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统。

7)Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

8)Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

5.搭建Hadoop运行环境(细节或bug自行查百度)

        将VMwareworkstations安装好,安装好虚拟机。可以勾选安装开发环境。这样可以配置上gcc

由于构建集群至少需要三台机器。所以先配置好第一台的基础信息,克隆两台。

        关闭防火墙!同时关闭防火墙开机自启动!

[root@Hadoop-1 ~]# systemctl stop firewalld

[root@Hadoop-1 ~]# systemctl disable firewalld.service

         在opt/目录下,或者自己新建一个export目录。里面创建softwares和servers文件夹。用于保存安装软件的安装包以及安装目录。

        卸载虚拟机自带的openJDK,并且安装上完整版的JDK。然后在/etc/profile里直接配置环境变量。之后记得source配置文件,让其生效。

        修改三台机器的网络连接模式,并且使用静态IP,将网络连接模式转换成NAT模式,注意虚拟网卡有没有安装好。(若没有虚拟网卡,用ccclean完全删除VMware后再用管理员运行,重新安装。)将ip地址配置好。同时在三台主机中添加ip映射。

        配置好上述环境,导入Hadoop的hadoop3.x.x.tar.gz 将其安装到serv

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值