hadoop学习笔记

hadoop主要是由HDFS(分布式文件系统)和MapReduce(分布式计算系统)两大部分组成。HDFS是分布式文件系统,它把文件安装一定大小(64M)分成多份,每份复制多块分布在不同数据节点上,例如:hadoop系统是分布在两个不同机架(机房)上的,每块文件复制3份的话,1份放在不同机架,两份则放在经常读取的机架。这样做即提升了性能,又保证了数据的安全行。MapReduce则是先把数据进行一定的分析(一般先过滤,再格式化,最后形成分类映射),然后再把分析后的数据按需要进行合并,以上的功能为MapReduce实现分布式计算提供了依据,基于这个它就可以把一个任务拆成多个子任务分布在不同的节点上执行。


HDFS主要是由namenode和datanode组成。namenode主要负责管理datanode,hadoop系统只有一个namenode。当然对应还有secondnamenode,它的职责有两个:一为namenode提供最新的checkpoint备份,另外则是定时生产最新的checkpoint(收集日志,形成checkpoint文件)。datanode则主要是存储数据并和namenode保持联系。


MapReduce则是由Jobtracker和tasktrack组成。显然在分布式计算里,一个任务可以拆成多个子任务并在不同计算节点上执行。Jobtracker主要负责管理任务及其子任务,tasktracker显然仅仅是执行任务。


总而言之,hadoop就是基于分布式文件系统的分布式计算系统。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值