hadoop生态圈之各种框架简介

目前学习的框架都是围绕Hadoop进行的,可以称之为Hadoop生态圈,目前学习了

Hadoop框架

hive框架

zookeeper框架

Kafka框架

HBase框架

Flume框架

Hadoop框架简介: Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。

它最新的版本是3.0版本,它与2.0相比主要是有部分优化。2.0与1.0相比就是一个框架的改动。

1.0只有HDFS和MapReduce,其中HDFS负责存储。MapReduce负责资源调度和计算。但是在2.0版本中,MapReduce只负责计算,资源调度则由yarn负责。

Hive框架简介   Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,其本质就是将HQL(hive的自己的语言)转化成MapReduce程序,它处理的程序存储在HDFS上,其分析数据底层实现的是MapReduce,其执行程序运行在yarn上。
所以它只有SQLparser解析式、physicalPlan编译器、QueryOpatimizer优化器、Execution执行器。

 

解析器:将SQL字符串转换成抽象语法树AST

编译器:将AST编译生成逻辑执行计划

优化器:对逻辑执行计划进行优化

执行器:把逻辑执行计划转化成可以运行的物理计划。对于Hive来说就是MR/Spark

zookeeper:zooKeeper是一个分布式的开源协调服务,用于分布式应用程序。它公开了一组简单的原子操作,分布式应用程序可以构建这些原子操作,以实现更高级别的服务,以实现同步,配置维护以及组和命名。

 

kafka基础框架简介:Kafka是一个 分布式的基于 发布 / 订阅模式消息队列(Message Queue),主要应用于大数据实时处理领域。(传统使用)
Kafka是一个开源的 分布式事件流平台(event streaming platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。(最新定位)
HBase: HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库(也即非关系型数据库),它利用 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。
Flume框架简介:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的 海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qq_45688530

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值