本次主要介绍大数据离线阶段的Hadoop入门,分为上下两篇。
- 上篇的内容为Hadoop简介,历史,特性,应用四个模块。
- 下篇的内容为hadoop的集群搭建,集群启动,入门初试三部分。
Hadoop介绍
一般我们讲的Hadoop分为狭义和广义两部分
狭义上讲
Hadoop 指 Apache 这款开源框架
Hadoop 是 Apache 旗下的一个用 java 语言实现开源软件框架, 是一个开发和运行处理大规模数据的软件平台。 允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。它的核心组件有:- HDFS(分布式文件系统):解决海量数据存储
- YARN(作业调度和集群资源管理的框架):解决资源任务调度
- MAPREDUCE(分布式运算编程框架): 解决海量数据计算
广义上讲
Hadoop 通常是指一个更广泛的概念——Hadoop 生态圈。
当下的 Hadoop 已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多,其中不乏一些非 Apache 主管的项