Hive:基于Hadoop的数据仓库Hive
Hive由Facebook开源,最初用于解决海量结构化的日志数据统计问题。Hive定义了一种类似SQL的查询语(HiveQL),将SQL转化为MapReduce任务在Hadoop上执行,通常用于离线分析。
HBase:
HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“BigTable:一个结构化数据的分布式存储系统”。就像BigTable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于BigTable的能力。
ZooKeeper分布式协调服务
ZooKeeper:
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和HBase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper的基本运转流程:选举Leader。同步数据。选举Leader过程中算法有很多,但要达到的选举标准是一致的。Leader要具有最高的执行ID,类似root权限。集群中大多数的机器得到响应并follow选出的Leader。
Mahout:
基于Hadoop的机器学习库Mahout
Mahout是Apache Software Foundation