什么是Hadoop

  • 大数据框架按功能来划分
  • 海量数据存储:
    HDFS、Hive(本质存储数据还是HDFS)、Hbase、ES(ElasticSearch)
  • 海量数据分析
    MapReduce、Spark、SQL

  • 最原始的Hadoop框架

  • 数据存储:HDFS(Hadoop Distributed File System)
  • 数据分析:MapReduce

  • Hadoop的起源

  • Google的三篇论文
    虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的设计论文,奠定了风靡全球的大数据算法的基础!
    Google FS——HDFS
    MapReduce——MapReduce
    BigTable——HBase
    理念:将任务分解然后再多态处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。
  • Hadoop介绍
    大数据绝大数框架都属于Apache顶级项目
    Apache官网
    Hadoop官网

  • 分布式
    相对于集中式而言
    需要多台机器进行协助完成
    元数据:记录数据的数据
    架构(主从架构)

    主节点 Master 老大,管理者
    管理
    从节点 Slave 从属,奴隶,被管理者
    干活

  • Hadoop也是分布式架构

  • HDFS

-主节点:NameNode
决定着数据存储到哪个DataNode上
将存储的文件划分成block块进行存储(128MB/block)
每个block的副本是三个
-从节点:DataNode
存储数据,真正存储数据块的地方(实际存储在机器的硬盘上)

  • MapReduce

-分而治之的思想
-将海量的数据划分为多个部分,每部分睡进行单独的处理,最后将所有的结果进行合并
-map task
单独处理每一部分的数据
-reduce task
合并map task的输出

分而治之

  • Yarn

-分布式集群资源管理框架,管理者集群的资料(memory,cpu core)
-合理调度分配给各个程序(MapReduce)使用
-主节点:resourceManager
掌管集群中的 资源
接收客户端提交的应用
-从节点:nodeManager
管理当前节点的资源
-总结:Hadoop的安装部署
. 都属于java进程,就是启动JVM进程,运行服务。
. HDFS:存储数据,提供分析的数据
NameNode/DataNode
. Yarn:提供程序运行的资源
ResourceManager/NodeManager

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值