hadoop專案包括一些相關的子專案
core:核心分佈式管理系統
avro:一個有效率的,跨平台的,遠端程式呼叫資料序列化系統
mapredce:分佈式資料處理系統
HDFS:一個分佈式檔案管理系統
pig:處理大量資料流的語言與執行環境
HBase:一個以列為導向的分佈式資料庫系統
Zookeeper:一個分數式協同系統
Hive:分散式倉庫系統,管理HDFS儲存的資料并提供sql為基礎的查詢語言
Chukwa:一個分散式資料收集系統
基本上Hadoop可以分為運算和存儲兩大部份,前者有MapReduce負責,後者有HDFS負責。
運算過程mapredce分為兩個節點,JobTracker和TaskTracker,前者主要負責接收工作請求,處理分配任務給後者執行,并將執行完的資料整理傳回。
存儲部份分為兩個節點:NameNode和DataNode。
Hadoop是默認是FIFO Scheduler,也提供Fair Scheduler。