hadoop概念与组件

大数据的lamda架构之一:

概念

Hadoop:开源的分布式计算框架、高可靠、可扩展

高可靠:集群、副本

可扩展:寄存可上万台,分布式存储、分布式计算

Hadoop可以做什么:

数据仓库:

  • 主要记录、很少更新、删除(数据库有事务、只保存最新数据状态)
  • PB级别的数据存储、处理、分析、统计(不含事务)
    • BI(商业智能)
    • 日志分析
    • 搜索引擎
    • 数据挖掘

Hadoop的组件:

  • Hadoop Common:核心组件
  • Hadoop Distributed File System (HDFS):分布式文件系统
    • 分布式存储
    • 通过副本实现冗余
    • 文件切割(将文件分成指定大小的数据库,分别存储在多个机器上,以便更大的文件的存储)
    • 副本、分布式存储、文件切割对用户透明
  • Hadoop MapReduce:分布式计算框架
    • 针对分布式存储的数据进行分布式计算
    • 可扩展
    • 海量数据离线处理
    • 计算分成两个阶段:分别计算、再聚合
      • Map:数据映射(找这个数据在那些机器上存储),分
      • Reduce:数据处理,聚合
  • Hadoop YARN:资源管理系统
    • 支持其他的计算方案、数据处理框架来同时处理HDFS里存储的文件
    • 没有YARN,MapReduce来使用HDFS数据时,是独占的。如果MapReduce只用了文件A,那么文件B等其他文件,就没有可以利用了。浪费时间。

  • YARN可以实现一个HDFS数据资源,多个数据处理框架一起访问。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值