一、Hadoop介绍
狭义上Hadoop指的是Apache软件基金会的一款开源软件。
用java语言实现,开源
允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理
二、Hadoop核心组件
Hadoop HDFS(分布式文件存储系统):解决海量数据存储
Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度
Hadoop MapReduce(分布式计算框架):解决海量数据计算
官网
广义上Hadoop指的是围绕Hadoop打造的大数据生态圈
三、Hadoop发展简史
Hadoop之父:Doug Cutting
Hadoop起源于Apache Lucene子项目:Nutch
- Nutch的设计目标是构建一个大型的全网搜索引擎。
- 遇到瓶颈:如何解决数十亿网页的存储和索引问题
Google三篇论文
- 《The Google file system》:谷歌分布式文件系统GFS
- 《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce
- 《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统
四、Hadoop现状
- HDFS作为分布式文件存储系统,处在生态圈的底层与核心地位;
- YARN作为分布式通用的集群资源管理系统和任务调度平台,支撑各种计算引擎运行,保证了Hadoop地位;
- MapReduce作为大数据生态圈第一代分布式计算引擎,由于自身设计的模型所产生的弊端,导致企业一线几乎不
再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据。
4.1、Hadoop特性应用
4.2、Hadoop国外应用
Yahoo
- 支持广告系统
- 用户行为分析
- 支持Web搜索
- 反垃圾邮件系统
- 存储处理数据挖掘和日志统计
- 构建基于Hadoop数据仓库平台(Apache Hive来自FB)
IBM
- 蓝云基础设施构建
- 商业化Hadoop发行、解决方案支持
4.3、 Hadoop国内应用
百度
- 用户搜索表征的需求数据、阿拉丁爬虫数据存储
- 数据分析和挖掘 竞价排名
阿里巴巴
- 为电子商务网络平台提供底层的基础计算和存储服务
- 交易数据、信用数据
腾讯
- 用户关系数据
- 基于Hadoop、Hive构建TDW(腾讯分布式数据仓库)
华为
对Hadoop的HA方案,以及HBase领域有深入研究
4.4、Hadoop发行版本
Apache开源社区版本
商业发行版本
Cloudera:https://www.cloudera.com/products/open-source/apache-hadoop.html
Hortonworks :https://www.cloudera.com/products/hdp.html
本文章中使用的是Apache版的Hadoop,版本号为: 3.3.0
五、Hadoop学习内容
Hadoop离线是大数据生态圈的核心与基石,是整个大数据开发的入门,是为后期的Spark、Flink打下坚实基础的课程。掌握三部分内容:Linux、Hadoop、Hive,就可以独立的基于数据仓库实现离线数据分析的可视化报表开发。
5.1、Hadoop MapReduce
是一种用于处理大数据的编程模型。它将数据集切分成多个小任务,每一个小任务都可以通过独立的计算来完成,最终的结果可以通过合并或更新数据来进行聚合。Hadoop MapReduce极大地简化了处理大数据的过程,因为它可以同时进行多个计算任务,并且可以快速地进行计算结果的合并和更新。
1. MapReduce的思想很好理解,关键在于如何基于这 个思想设计出一款 分布式计算程序?
2. 下面看看Hadoop团队针对MapReduce的设计构思是怎样的?这决定了你将如何使用MapReduce?
(1)如何对付大数据处理场景
⚫ 对相互间不具有计算依赖关系的大数据计算任务,实现并行最自然的办法就是采取MapReduce分而治之的策略。
⚫ 首先Map阶段进行拆分,把大数据拆分成若干份小数据,多个程序同时并行计算产生中间结果;然后是Reduce聚合阶段,通过程序对并行的结果进行最终的汇总计算,得出最终的结果。
⚫ 不可拆分的计算任务或相互间有依赖关系的数据无法进行并行计算!
(2)构建抽象编程模型
⚫ MapReduce借鉴了函数式语言中的思想,用Map和Reduce两个函数提供了高层的并行编程抽象模型。
map: 对一组数据元素进行某种重复式的处理;
reduce: 对Map的中间结果进行某种进一步的结果整理。
⚫ MapReduce中定义了如下的Map和Reduce两个抽象的编程接口,由用户去编程实现:
map: (k1; v1) → (k2; v2)
reduce: (k2; [v2]) → (k3; v3)
⚫ 通过以上两个编程接口,大家可以看出MapReduce处理的数据类型是<key,value>键值对。
(3)统一架构、隐藏底层细节
⚫ 如何提供统一的计算框架,如果没有统一封装底层细节,那么程序员则需要考虑诸如数据存储、划分、分发、结果收集、错误恢复等诸多细节;为此,MapReduce设计并提供了统一的计算框架,为程序员隐藏了绝大多数系统层面的处理细节。
⚫ MapReduce最大的亮点在于通过抽象模型和计算框架把需要做什么(what need to do)与具体怎么做(how to
do)分开了,为程序员提供一个抽象和高层的编程接口和框架。
⚫ 程序员仅需要关心其应用层的具体计算问题,仅需编写少量的处理应用本身计算问题的业务程序代码。
⚫ 至于如何具体完成这个并行计算任务所相关的诸多系统层细节被隐藏起来,交给计算框架去处理:从分布代码的执行,到大到数千小到单个节点集群的自动调度使用。
分布式计算概念
⚫ 分布式计算是一种计算方法,和集中式计算是相对的。
⚫ 随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。
⚫ 分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。
5.2、MapReduce介绍
⚫ Hadoop MapReduce是一个分布式计算框架,用于轻松编写分布式应用程序,这些应用程序以可靠,容错的方式并行处理大型硬件集群(数千个节点)上的大量数据(多TB数据集)。
⚫ MapReduce是一种面向海量数据处理的一种指导思想,也是一种用于对大规模数据进行分布式计算的编程模型。
5.3、MapReduce产生背景
⚫ MapReduce最早由Google于2004年在一篇名为《MapReduce:Simplified Data Processingon Large Clusters 》的论文中提出。
⚫ 论文中谷歌把分布式数据处理的过程拆分为Map和Reduce两个操作函数(受到函数式编程语言的启发),随后被 Apache Hadoop参考并作为开源版本提供支持,叫做Hadoop MapReduce。
⚫ 它的出现解决了人们在最初面临海量数据束手无策的问题,同时它还是易于使用和高度可扩展的,使得开发者无需关系分布式系统底层的复杂性即可很容易的编写分布式数据处理程序,并在成千上万台普通的商用服务器中运行。
5.4、MapReduce特点
⚫ 易于编程
Mapreduce框架提供了用于二次开发的接口;简单地实现一些接口,就可以完成一个分布式程序。任务计算交给计算框架去处理,将分布式程序部署到hadoop集群上运行,集群节点可以扩展到成百上千个等。
⚫ 良好的扩展性
当计算机资源不能得到满足的时候,可以通过增加机器来扩展它的计算能力。基于MapReduce的分布式计算得特点可以随节点数目增长保持近似于线性的增长,这个特点是MapReduce处理海量数据的关键,通过将计算节点增至几百或者几千可以很容易地处理数百TB甚至PB级别的离线数据。
⚫ 高容错性
Hadoop集群是分布式搭建和部署得,任何单一机器节点宕机了,它可以把上面的计算任务转移到另一个节点上运行, 不影响整个作业任务得完成,过程完全是由Hadoop内部完成的。
⚫ 适合海量数据的离线处理
可以处理GB、TB和PB级别得数据量
5.5、MapReduce局限性
MapReduce虽然有很多的优势,也有相对得局限性,局限性不代表不能做,而是在有些场景下实现的效果比较差,并 不适合用MapReduce来处理,主要表现在以下结果方面:
⚫ 实时计算性能差
MapReduce主要应用于离线作业,无法作到秒级或者是亚秒级得数据响应。
⚫ 不能进行流式计算
流式计算特点是数据是源源不断得计算,并且数据是动态的;而MapReduce作为一个离线计算框架,主要是针对静态数据集得,数据是不能动态变化得。
5.6、MapReduce实例进程
一个完整的MapReduce程序在分布式运行时有三类
⚫ MRAppMaster:负责整个MR程序的过程调度及状态协调
⚫ MapTask:负责map阶段的整个数据处理流程
⚫ ReduceTask:负责reduce阶段的整个数据处理流程
5.7、阶段组成
⚫ 一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段,或者只有Map阶段;
⚫ 不能有诸如多个map阶段、多个reduce阶段的情景出现;
⚫ 如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序串行运行。
MapReduce数据类型
⚫ 注意:整个MapReduce程序中,数据都是以kv键值对的形式流转的;
⚫ 在实际编程解决各种业务问题中,需要考虑每个阶段的输入输出kv分别是什么;
⚫ MapReduce内置了很多默认属性,比如排序、分组等,都和数据的k有关,所以说kv的类型数据确定及其重要的。
六、Hadoop安装教程_单机/伪分布式配置
本教程由厦门大学数据库实验室出品,转载请注明。本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,相信按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。此外,希望读者们能多去了解一些 Linux 的知识,以后出现问题时才能自行解决。
为了方便学习本教程,请读者们利用Linux系统中自带的firefox浏览器打开本指南进行学习。
Hadoop安装文件,可以到Hadoop官网下载,也可以点击这里从百度云盘下载(提取码:99bg),进入该百度云盘链接后,找到Hadoop安装文件hadoop-2.7.1.tar.gz(本教程也可以用于安装Hadoop 2.7.1版本)。
6.1、环境
本教程使用 Ubuntu 14.04 64位 作为系统环境(Ubuntu 12.04,Ubuntu16.04 也行,32位、64位均可),请自行安装系统(可参考使用VirtualBox安装Ubuntu)。
如果用的是 CentOS/RedHat 系统,请查看相应的CentOS安装Hadoop教程_单机伪分布式配置。
本教程基于原生 Hadoop 2,在 Hadoop 2.6.0 (stable) 版本下验证通过,可适合任何 Hadoop 2.x.y 版本,如 Hadoop 2.7.1、2.6.3、2.4.1等。
使用本教程请确保系统处于联网状态下,部分高校使用星网锐捷连接网络,可能导致虚拟机无法联网,那么建议您使用双系统安装ubuntu,然后再使用本教程!
Hadoop版本: Hadoop 有两个主要版本,Hadoop 1.x.y 和 Hadoop 2.x.y 系列,比较老的教材上用的可能是 0.20 这样的版本。Hadoop 2.x 版本在不断更新,本教程均可适用。如果需安装 0.20,1.2.1这样的版本,本教程也可以作为参考,主要差别在于配置项,配置请参考官网教程或其他教程。
新版是兼容旧版的,书上旧版本的代码应该能够正常运行(我自己没验证,欢迎验证反馈)。
装好了 Ubuntu 系统之后,在安装 Hadoop 前还需要做一些必备工作。
6.2、创建hadoop用户
如果你安装 Ubuntu 的时候不是用的 "hadoop" 用户,那么需要增加一个名为 hadoop 的用户。
首先按 ctrl+alt+t 打开终端窗口,输入如下命令创建新用户 :
- sudo useradd -m hadoop -s /bin/bash
Shell 命令
这条命令创建了可以登陆的 hadoop 用户,并使用 /bin/bash 作为 shell。
sudo命令: 本文中会大量使用到sudo命令。sudo是ubuntu中一种权限管理机制,管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时,就需要输入您当前用户的密码.
密码:在Linux的终端中输入密码,终端是不会显