--内容来自厦门大学林子雨教授的《大数据技术原理》课程,作为学习笔记。
2.1概述
2.2Hadoop项目结构
2.3Hadoop的安装和使用
2.4Hadoop集群的部署与使用
2.1.1Hadoop简介
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构;
Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中;
Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce;
Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力;
几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如:谷歌、雅虎、微软、思科、淘宝等都支持Hadoop;
2.1.2Hadoop发展简史
Hadoop最初是有Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。
谷歌三大核心论文:GFS(谷歌文件系统)、MapReduce、BigTable;
2.1.3 Hadoop的特性
Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:
- 高可靠性
- 高效性
- 高可扩展性
- 高容错性
- 成本低
- 运行在Linux平台上
- 支持多种编程语言
国内采用Hadoop的公司主要有百度、淘宝、网易、华为、中国移动等,其中淘宝的Hadoop集群比较大;