Hadoop是较早用来处理大数据集合的分布式存储计算基础架构,最早由Apache软件基金会开发。
Hadoop软件库是一个计算框架,在这个框架下,可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据集。
Hadoop被设计成可扩展的,它可以方便地从单一服务器扩展到数千台机器,每台机器进行本地计算和存储。
3.2.1 Hadoop的构成
Hadoop包括以下四个基本模块:
● Hadoop基础功能库:支持其他Hadoop模块的通用程序包。
● HDFS:一个分布式文件系统,能够以高吞吐量访问应用的数据。
● YARN:一个作业调度和资源管理框架。
● MapReduce:一个基于YARN的大数据并行处理程序。
除了基本模块,Hadoop相关的其他项目还包括:
● Ambari:一个基于Web的工具,用于配置、管理和监控Hadoop集群。支持HDFS、MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari还提供显示集群健康状况的仪表盘,如热点图等。
Ambari以图形化的方式查看MapReduce、Pig和Hive应用程序的运行情况,因此可以通过对用户友好的方式诊断应用的性能问题。
● Avro:一个数据序列化系统。
● Cassandra:一个可扩展的无单点故障的NoSQL多主数据库。
● Chukwa:一个用于大型分布式系统的数据采集系统。
● HBase:一个可扩展的分布式数据库,支持大表的结构化数据存储。
● Hive:一个数据仓库基础架构,提供数据