Hadoop生态圈
HDFS:
Hadoop Distributed File System作为Hadoop生态体系中数据的存储,分布式文件系统
MapReduce:
Hadoop中分布式计算框架,对海量数据进行并行分析和计算
Hbase:
基于HDFS的列式存储的Nosql数据库
Hive:
是一款SQL解释引擎,能够将Sql转换成为MR代码
Flume:
分布式日志采集系统,用于收集海量的日志数据,并将其存储在HDFS中
Kafka:
消息队列,实现对分布式应用程序间的解耦和,数据缓冲
Zookeeper:
分布式协调服务,用户注册中心,配置中心,集群选举,状态检测,分布式锁
Yarn:
通用的资源管理系统
大数据的分析方案
MapReduce:
大数据离线批处理(基于磁盘,延迟比较高)
Spark:
大数据离线批处理(基于内存,相对于MR速度快很多)
Storm/Spark Streaming/Kafka Streaming/Flink:
实时流处理框架,达到对记录级别消息的毫秒级处理