黑马程序员认知实习第一天

Hadoop
Hadoop创始人: Doug Cutting
Hadoop起源于Apache Lucene子项目:Nutch
Nutch的设计目标是构建一个大型的全网搜索引擎。
遇到瓶颈:如何解决数十亿网页的存储和索引问题
数据:一种可以被鉴别的对客观事件进行记录的符号;
简单来说就是:对人类的行为及产生的事件的一种记录。例如:淘宝,微信,浏览器等
这些我们的日常活动所产生的信息记录 都是数据;
数据的有价值: 丰富的数据支撑可以让我们更好的了解 事和物在现实世界的运行规律;
大数据的诞生:大数据的诞生和信息化以及互联网的发展是密切相关的。在2000年后,互联网上的商业行为剧增,在互联网参与者众多的前提下,商业公司、科研单位等,所能获得的 数据量也是 剧增 剧增的数据量,和羸弱的单机性能 ,让许多科技公司开始尝试以 数量来 解决问题。
分布式处理技术诞
1.大规模服务器集群下的大规模数据存储
2. 大规模服务器集群下的 大规模数据计算
3. 大规模服务器集群下的 大规模数据传输技术
大数据核心工作大数据软件生态,也基本上围绕着三大工作体系)
1.数据存储: 妥善保存海量待处理数据
2.数据计算: 完成海量数据的价值挖掘
3.数据传输: 协助各个环节的数据传输
大数据软件生态
1.数据存储: Apache Hadoop HDFS、Apache HBase等
2.数据计算:Apache Hadoop MapReduce、Apache Spark、Apache
Flink
3.数据传输: Apache Sqoop、Apache Flume、Apache Kafka等
分布式
分布式是指将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事情
单机模式可比喻为: 一个餐厅的厨房只有一个人,这个人既要买菜、又要切菜、还要炒菜,效率很低!
而分布式模式可比喻为: 一个餐厅的厨房有三个人,一个人买菜、一个人切菜、一个人炒菜,效率提高了!
集群
所谓集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机 联合起来工作 ( 服务 ) ,可以是并行的,也可以是做备份。
去中心化模式:去中心化模式,没有明确的中心。众多服务器之间基于特定规则进行同步协调 
中心化模式:有一个中心节点(服务器)来统筹其它服务器的工作,统一指挥,统一调派,避免混乱。
这种模式,也被称之为:一主多从模式,简称主从模式(Master And Slaves)
我们学习的Hadoop框架,就是一个典型的主从模式(中心化模式)架构的技术框架。
分布式和集群区别
分布式:分布式的主要工作是分解任务,将职能拆解,多个人在一起做不同的事
集群:集群主要是将同一个业务,部署在多个服务器上 ,多个人在一起做同样的事
Hadoop模块之间的关系
MapReduce计算需要的数据和产生的结果需要HDFS来进行存储
MapReduce的运行需要由Yarn集群来提供资源调度。
  • 7
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值