1.Hadoop是什么?
Hadoop是一个分布式系统基础架构,架构最核心的设计就是:分布式文件系统(简称HDFS)和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。
2.Hadoop的优势?
·Hadoop能够对大量数据进行分布式处理( PB 级数据)。
·HDFS有高容错性的特点,设计用来部署在低廉的硬件上,使得Hadoop更加可靠。
3.工作平台?
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台(我使用Ubuntu14)上是非常理想的。使用linux PC机组建集群。简而言之就是将大量数据文件分成块(block),分布在集群的机器上,使用linux的文件系统存放,同时每块文件至少有3份以上的冗余。
4.现状?
国外:Facebook、Twitter、雅虎等
国内:阿里巴巴、百度、京东等