看了大数据的学习路线差点晕倒了,这么多主流开源框架要学习,Hive、Spark、Hbase、Presto、Flink、Druid、ClickHouse 、Impala、Kylin、Kafka、Kudu等主流开源大数据计算框架。还有Python
还有Hadoop集群。
HDFS:分布式存储系统,包含NameNode,DataNode。NameNode:元数据,DataNode。DataNode:存储数据。
yarn:可以理解为MapReduce的协调机制,本质就是Hadoop的处理分析机制,分为ResourceManager NodeManager。
MapReduce:软件框架,编写程序。
Hive:数据仓库 可以用SQL查询,可以运行Map/Reduce程序。
HBase:数据库。非常适合用来做大数据的实时查询。
ZooKeeper:针对大型分布式的可靠性协调系统。Hadoop的分布式同步等靠Zookeeper实现,例如多个NameNode,active standby切换。
Sqoop:数据库相互转移,关系型数据库和HDFS相互转移
Chukwa:开源收集系统,监视大型分布式系统,建立在HDFS和Map/Reduce框架之上。显示、监视、分析结果。
Ambari:用于配置、管理和监视Hadoop集群。
看到这些学习清单,差点晕倒了,实在太多了。
-END-
猜你感兴趣
微信公众号:爱开发