Hadoop学习笔记_1:Hadoop相关生态圈了解学习

写在开头

Hadoop生态圈主要解决:海量数据的存储和分析计算问题。

大数据特点(4V):大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)

Hadoop优点(4高):高可靠性、高拓展性、高效性、高容错性

Hadoop1.x和2.x的区别:

  • 2.x组成
    • Common:辅助工具
    • HDFS:数据存储
    • MapReduce:计算(1.x版本没有Yarn,MapReduce负责计算和资源调度
    • Yarn:资源调度
组成
  • HDFS架构组成
    • NameNode,存储文件的元数据,如文件名、文件目录结构,文件属性信息等,以及每个文件的块列表和块所在的DataNode等。

    • DataNode,在本地文件系统中存储文件块数据,以及数据的校验和。

    • Secondary NameNode,监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。
      在这里插入图片描述

  • Yarn架构组成
    • ResourceManager
      • 处理客户端请求
      • 监控NodeManager
      • 启动或监控ApplicationMaster
      • 资源分配与调度
    • NodeManager
      • 管理单个节点资源
      • 处理来自ResourceManager的命令
      • 处理来自ApplicationMaster的命令
    • ApplicationMaster
      • 数据切分
      • 为应用程序申请资源并分配内部任务
      • 任务监控与容错
    • Container
      • 资源抽象(为ApplicationMaster提供容器支持,CPU、网络、Disk等)
        在这里插入图片描述
  • MapReduce计算过程
    • Map阶段并行处理输入数据
    • Reduce阶段对Map数据处理结果进行汇总
      在这里插入图片描述
生态体系
层级(自下向上)包含内容1包含内容2包含内容3
数据来源层数据库(结构化数据)文件日志(半结构化数据)视频,文件等(非结构化数据)
数据传输层Sqoop数据传递Flume日志收集Kafka消息队列
数据存储层HDFS文件存储(HBase)HDFS文件存储(HBase)Kafka消息队列
资源管理层YARN资源管理YARN资源管理YARN资源管理
数据计算层MapReduce离线计算Spark Core内存计算(离线)Spark Streaming / Storm 实时计算
任务调度层Oozie任务调度Azkaban任务调度CronTab任务调度
业务模型层业务模型数据可视化业务应用

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程小透明

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值