CDH

最新推荐文章于 2022-01-12 16:34:48 发布

Ethansuper

最新推荐文章于 2022-01-12 16:34:48 发布

阅读量171

点赞数

分类专栏：架构类

本文链接：https://blog.csdn.net/Ethansuper/article/details/104399977

版权

架构类专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Impala和Hive
Impala是基于Hive的大数据实时分析查询引擎，Impala 与Hive都是构建在Hadoop之上的数据查询工具
https://www.cnblogs.com/zlslch/p/6785207.html?utm_source=itdadao&utm_medium=referral
MapReduce
进行并行计算,从数据库的角度来说， MapReduce 其实就是一个 select + groupBy 的功能，抛开性能速度不谈，很多解决方案肯定也是不适合的，所以才有了后面的 Spark Rdd 概念的崛起。
YARN
动态资源池
HBase
HBase是一个分布式的、面向列的开源数据库，侧重于统计
跟mysql最大的区别在于
1.一个字–大（大表）Mysql Innodb的单表最大限制64T，Mysiam的单表最大限制256T
2.mysql是面向行存储，hbase是面向列存储，mysql读取的是整行的数据，如果列很多的话会增加时间，面向列存储就会快很多，比如id，姓名，学号这些分别以列存储，就是把一列的数据放在一块儿总结：面向行在于查询数据，面向列在于统计数据
3，高可靠，分布式
4.Hbase只是一个读写管理的作用，真实的数据还是存储到底层的HDFS中
Hadoop
Hadoop分布式文件系统
Kafka
Kafka是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。
Oozie
Oozie是大数据四大协作框架之一——任务调度框架，另外三个分别为数据转换工具Sqoop,文件收集库框架Flume,大数据WEB工具Hue。
它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。
Oozie需要部署到Java Servlet容器中运行。
Zookeeper
功能相似的任务调度框架还有Azkaban和Zeus
它是一个分布式服务框架，是Apache Hadoop 的一个子项目，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等
Flume
Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力

Ethansuper

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CDH

Impala和HiveImpala是基于Hive的大数据实时分析查询引擎，Impala 与Hive都是构建在Hadoop之上的数据查询工具https://www.cnblogs.com/zlslch/p/6785207.html?utm_source=itdadao&utm_medium=referralMapReduce进行并行计算YARN动态资源池HBaseHBase是...
复制链接

扫一扫

专栏目录