大数据处理架构Hadoop
2.1 Hadoop简介
- Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
- Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。
- Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce。
- Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。
2.2 Hadoop特性
Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:
- 高可靠性
- 高效性
- 高可扩展性
- 高容错性
- 成本低
- 跨平台
- 支持多种编程语言
2.3 Hadoop生态系统
Hadoop的项目结构不断丰富发展,已经形成一个丰富的Hadoop生态系统。
组件 | 功能 |
---|---|
HDFS | 分布式文件系统 |
MapReduce |