Hadoop

Hadoop

Hadoop简介

  1. Hadoop是Apache的一个开源项目,使用JAVA语言开发,提供接口给用户调用,无需关注底层实现,且支持多种编程语言;
  2. 两大核心:
    HDFS:分布式存储,解决海量数据存储问题
    MapReduce:分布式并行处理,解决海量数据处理问题
  3. 应用现状
    在这里插入图片描述

Hadoop版本

版本版本号
Hadoop1.0Hadoop0.20.x,Hadoop0.21.x,Hadoop0.22.x
Hadoop2.0Hadoop0.23.x,Hadoop2.x
  1. Hadoop1.0中MapReduce需要负责“数据处理分析”和“集群资源调度(带宽、CPU等资源调度)”,这导致MapReduce效率低下
  2. Hadoop2.0将调度管理功能划分出来,整合成新模块“YARN”,由“YARN”框架来完成资源调度管理功能,MapReduce只负责数据分析管理功能(YARN框架可支持MapReduce、Spark、Storm等框架)
  3. Hadoop2.0中,HDFS解决1.0中的可扩展性差的问题,提出“NN Federation”、“HA”技术(NN Federation:名称节点,提供数据目录服务,可设置多个,进行分区管理;HA:热变动机制)
    在这里插入图片描述

Hadoop项目结构

2.0版本框架图
在这里插入图片描述

  1. MapReduce:离线批处理计算,基于磁盘计算
  2. Tez:将MapReduce作业进行分析、优化,构建成有向无环图
  3. Spark:基于内存计算,效率高于MapReduce
  4. Hive:数据仓库,用于企业数据分析,可以支持SQL语句
  5. Pig:流数据处理,提供类似SQL查询的语言Pig Latin,轻量级脚本语言
  6. Oozie:工作流管理系统
  7. Flime:日志收集(美团大数据架构)
  8. Sqoop:用于在Hadoop与传统数据库之间进行数据传递(关系型数据库到HDFS、HBase、Hive互导)

Hadoop企业应用

  1. Hortonworks,Cloudera(CDH),MapR
  2. 考虑因素:
    是否开源(免费),是否有稳定版,是否经实践检验,是否有强大社区支持
    在这里插入图片描述

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值