Hadoop
Hadoop创始人:
Doug Cutting
Hadoop起源于Apache Lucene子项目:Nutch
Nutch的设计目标是构建一个大型的全网搜索引擎。
遇到瓶颈:如何解决数十亿网页的存储和索引问题
数据:一种可以被鉴别的对客观事件进行记录的符号;
简单来说就是:对人类的行为及产生的事件的一种记录。例如:淘宝,微信,浏览器等
这些我们的日常活动所产生的信息记录 都是数据;
数据的有价值:
丰富的数据支撑可以让我们更好的了解
事和物在现实世界的运行规律;
大数据的诞生:大数据的诞生和信息化以及互联网的发展是密切相关的。在2000年后,互联网上的商业行为剧增,在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的
数据量也是
剧增
。
剧增的数据量,和羸弱的单机性能
,让许多科技公司开始尝试以
数量来
解决问题。
分布式处理技术诞
1.大规模服务器集群下的大规模数据存储
2.
大规模服务器集群下的
大规模数据计算
3.
大规模服务器集群下的
大规模数据传输技术
大数据核心工作
(
大数据软件生态,也基本上围绕着三大工作体系)
1.数据存储:
妥善保存海量待处理数据
2.数据计算:
完成海量数据的价值挖掘
3.数据传输:
协助各个环节的数据传输
大数据软件生态
1.数据存储:
Apache Hadoop HDFS、Apache HBase等
2.数据计算:Apache Hadoop MapReduce、Apache Spark、Apache
Flink
3.数据传输:
Apache Sqoop、Apache Flume、Apache Kafka等
分布式
分布式是指将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事情
单机模式可比喻为:
一个餐厅的厨房只有一个人,这个人既要买菜、又要切菜、还要炒菜,效率很低!
而分布式模式可比喻为:
一个餐厅的厨房有三个人,一个人买菜、一个人切菜、一个人炒菜,效率提高了!
集群
所谓集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机
联合起来工作
(
服务
)
,可以是并行的,也可以是做备份。
去中心化模式:去中心化模式,没有明确的中心。众多服务器之间基于特定规则进行同步协调
据
中心化模式:有一个中心节点(服务器)来统筹其它服务器的工作,统一指挥,统一调派,避免混乱。
这种模式,也被称之为:一主多从模式,简称主从模式(Master And Slaves)
我们学习的Hadoop框架,就是一个典型的主从模式(中心化模式)架构的技术框架。
这种模式,也被称之为:一主多从模式,简称主从模式(Master And Slaves)
我们学习的Hadoop框架,就是一个典型的主从模式(中心化模式)架构的技术框架。
分布式和集群区别
分布式:分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事
集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事
Hadoop模块之间的关系
MapReduce计算需要的数据和产生的结果需要HDFS来进行存储
MapReduce的运行需要由Yarn集群来提供资源调度。
MapReduce的运行需要由Yarn集群来提供资源调度。