什么是Hadoop
利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统;可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
Hadoop的优点、
Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理 。
可靠:它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理 。
高效:它以并行的方式工作,通过并行处理加快处理速度。
可伸缩:能够处理 PB 级数据。
用户可以轻松地的开发和运行处理海量数据的应用程序。
它主要有以下几个优点:
1.高可靠性:按位存储、处理数据的能力值得人们信赖 。
2.高扩展性:可以用计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快 。
4.高容错性:能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5.低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++