CDH

Impala和Hive
Impala是基于Hive的大数据实时分析查询引擎,Impala 与Hive都是构建在Hadoop之上的数据查询工具
https://www.cnblogs.com/zlslch/p/6785207.html?utm_source=itdadao&utm_medium=referral
MapReduce
进行并行计算,从数据库的角度来说, MapReduce 其实就是一个 select + groupBy 的功能,抛开性能速度不谈,很多解决方案肯定也是不适合的,所以才有了后面的 Spark Rdd 概念的崛起。
YARN
动态资源池
HBase
HBase是一个分布式的、面向列的开源数据库,侧重于统计
跟mysql最大的区别在于
1.一个字–大(大表)Mysql Innodb的单表最大限制64T,Mysiam的单表最大限制256T
2.mysql是面向行存储,hbase是面向列存储,mysql读取的是整行的数据,如果列很多的话会增加时间,面向列存储就会快很多,比如id,姓名,学号这些分别以列存储,就是把一列的数据放在一块儿 总结:面向行在于查询数据,面向列在于统计数据
3,高可靠,分布式
4.Hbase只是一个读写管理的作用,真实的数据还是存储到底层的HDFS中
Hadoop
Hadoop分布式文件系统
Kafka
Kafka是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。
Oozie
Oozie是大数据四大协作框架之一——任务调度框架,另外三个分别为数据转换工具Sqoop,文件收集库框架Flume,大数据WEB工具Hue。
它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。
Oozie需要部署到Java Servlet容器中运行。
Zookeeper
功能相似的任务调度框架还有Azkaban和Zeus
它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等
Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值