Hadoop笔记

1.Hadoop 从三个角度将主机划分为二种角色。

第一,最基本划分为Master和Slave;

第二,从HDFS角度上,划分为NameNoe(目录管理者)和DataNode;

第三,从MapReduce角度上,划分为JobTracker和TaskTracker.

2.Hadoop三种运行方式:

 单机模式:无需配置,单进程,用于调试;

 伪分布式:一个节点的集群,配置简单

 完全分布式:

3.起于2002 Apache Nutch.06年独立,HDFS + MapRedue 。HDFS高容错,数据管理,基于Java,移植。MapReduce 处理任务高效及开源。  可靠,可扩展,高效,高容错。

08.02 Yahoo 2000个节点上1W个Hadoop虚拟机处理5PB网页。

4.特点原理:

 数据分布存储;NameNode ,DataNode HDFS block; 64MB

 分布式并行计算;主控JobTracker,用户提交的计算叫Job,每一个Job会被划分成若干个Tasks,JobTracker负责Job和Tasks的调度,而TaskTracker负责执行Tasks;

 本地计算,数据存储在哪台上,就在哪台上执行;

 任务粒度;64MB,M个小数据集,M个Map任务;

 数据分割, Hash(key) mod R;

 数据合并,对中间结果合并;

 Reduce,形成最终结果文件 ;

 任务管道,结果成为另一个计算任务的输入,开始下一个任务。

5.MapReduce 是大规模数据(TB)计算的利器,Map和Reduce是它的主要思想,来源于函数式编程语言,原理:

 Map负责将数据打散,Reduce负责将数据进行聚集,用户只需要实现map和reduce二个接口,即可完成TB级数据的计算,常见的应用包括:日志分析,数据挖掘等数据分析应用,还有科学数据计算等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值