hadoop项目是一个可靠的、可伸缩的、分布式的开源软件。
hadoop软件库是一个允许对大规范数据集使用简单的编程模型通过集群计算的框架。它被设计为从单点服务到几千个机器,每一个机器都踢狗本地计算和存储。它不依赖硬件去投递高可用性,软件库本身是被设计为能够检测和处理应用层次上的错误,所以投递一个高可用的服务在一个顶级电脑集群上,它们中的每一台机器都可能易于失败。
hadoop项目包括以下这些子项目:
hadoop common:支持其他hadoop子项目的通用功能
Hadoop Distributed File System(HDFS):一个对应用数据提供高通量存储的分布式文件系统
Hadoop MapReduce:一个在集群上分布式处理大规模数据的软件框架
其他与Hadoop相关的Apache上的项目
Avro:一个数据序列化系统
Cassandra:一个可伸缩的无单独失败的多宿主数据库
Chukwa:对于管理大分布式系统的一个数据集合系统
HBase:一个支持大表结构化数据存储的可伸缩的分布式数据库
Hive:一个提供数据汇总和特殊查询的数据仓库基础设施
Mahout:一个可伸缩的机器学习和数据挖掘库
Pig:一个对于并行计算的高水平数据流语言和执行框架
ZooKeeper:一个对于分布式应用的高性能协调服务