1.1 分布式文件系统Hadoop Distributed File System(HDFS)
之前有DFS,作为GFS的一个最重要的实现,HDFS设计目标和GFS是高度一致的。
2.1 分布式离线计算框架(第一代) 1.0Hadoop MapReduce
2.2 分布式离线计算框架(第一代) 2.0Hadoop YARN
3.1 分布式NOSQL数据仓库Pig/Hive
MapReduce的程序写起来麻烦,他们希望简化这个过程。这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了Pig和Hive。
Pig是接近脚本方式去描述MapReduce,Hive则用的是SQL。它们把脚本和SQL语言翻译成MapReduce程序,丢给计算引擎去计算,而你就从繁琐的MapReduce程序中解脱出来,用更简单更直观的语言去写程序了。
有了Hive之后,人们发现SQL对比Java有巨大的优势。一个