大数据生态Hadoop笔记(一)

一、大数据核心工作

        1.数据存储

               1. Apache Hadoop -HDFS

                Apache Hadoop框架内的组件HDFS是大数据体系中使用最为广泛的分布式存储技术

                2.Apache HBase

                Apache HBase是大数据体系内使用非常广泛的NoSQL KV型数据库技术,HBase是基于HDFS之上构建的

                3.Apache KUDU

                Apache KUDU同样为的大数据体系中使用较多的分布式存储引擎

                4.云平台存储组件

                初次之外,各大云平台厂商也有相应的大数据存储组件,如阿里云的OSS、UClound的US3、AWS的S3、金山云的KS3等等

        2.数据计算

                1.Apache Hadoop - MapReduce

                Apache Hadoop - MapReduce的MapReduce组件时最早一代的大数据分布式计算引擎,对大数据的发展做出了卓越的贡献

                2.Apache Hive

                Apache Hive是一款以SQL为要开发语言的分布式计算框架,其底层使用了Hadoop的MapReduce技术

                3.Apache Spark

                Apache Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品

                4.Apache Flink

                Apache Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算领域,Flink占据了大多数的国内市场

        3.数据传输

                1.Apache Kafka

                Apache Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。

                2.Apache Pulsar

                Apache Pulsar同样是一款分布式的消息系统。

二、什么是Hadoop

        Hadoop是Apache软件基金会下的顶级开源项目,用以提供:

                分布式数据存储

                分布式数据计算

                分布式资源调度

        为一体的整体解决方案

三、Hadoop的功能

        通常意义上,Hadoop是一个整体,其内部还会细分为三个功能组件:

                HDFS组件

                MapReduce组件

                YARN组件

        1.为什么需要分布式存储

                数据量太大,单机存储能力有上限,需要考数量来解决问题

                数量的提升带来的是网络传输,磁盘读写,CPU、内存等各方面的综合提升。

        2.分布式的基础架构

                1.大数据体系中,分布式的调度主要有2类架构模式:

                        去中心化模式:

                                去中心化模式,没有明确的中心。

                                众多服务器之间基于特定规则进行同步协调。

                        中心化模式

                2.主从模式

                大数据框架,大多数的基础架构上,都是符合:中心化模式的。

                即:有一个中心节点(服务器)来统筹其他服务器的工作,统一指挥,统一调配,避免混乱

                这种模式,也被称之为:一主多从模式,简称主从模式(Master And Slaves)

                3.HDFS的基础架构

                HDFS集群(分布式存储):

                        主角色:NameNode

                                HDFS系统的主角色,是一个独立的进程

                                负责管理HDFS整个文件系统

                                负责管理DataNode

                        从角色:DataNode

                                HDFS系统的从角色,是一个独立进程

                                主要负责数据的存储,即存入数据和取出数据

                        主角色辅助角色:

                        SecondaryNameNode

                                NameNode的辅助,是一个独立的进程

                                主要帮助NameNode完成元数据整理工作

  • 26
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值