hadoop学习笔记

最新推荐文章于 2023-04-09 00:21:59 发布

fbfsber008

最新推荐文章于 2023-04-09 00:21:59 发布

阅读量468

点赞数

本文链接：https://blog.csdn.net/fbfsber008/article/details/8509721

版权

hadoop主要是由HDFS(分布式文件系统)和MapReduce（分布式计算系统）两大部分组成。HDFS是分布式文件系统，它把文件安装一定大小（64M）分成多份，每份复制多块分布在不同数据节点上，例如：hadoop系统是分布在两个不同机架（机房）上的，每块文件复制3份的话，1份放在不同机架，两份则放在经常读取的机架。这样做即提升了性能，又保证了数据的安全行。MapReduce则是先把数据进行一定的分析（一般先过滤，再格式化，最后形成分类映射），然后再把分析后的数据按需要进行合并，以上的功能为MapReduce实现分布式计算提供了依据，基于这个它就可以把一个任务拆成多个子任务分布在不同的节点上执行。

HDFS主要是由namenode和datanode组成。namenode主要负责管理datanode，hadoop系统只有一个namenode。当然对应还有secondnamenode，它的职责有两个：一为namenode提供最新的checkpoint备份，另外则是定时生产最新的checkpoint（收集日志，形成checkpoint文件）。datanode则主要是存储数据并和namenode保持联系。

MapReduce则是由Jobtracker和tasktrack组成。显然在分布式计算里，一个任务可以拆成多个子任务并在不同计算节点上执行。Jobtracker主要负责管理任务及其子任务，tasktracker显然仅仅是执行任务。

总而言之，hadoop就是基于分布式文件系统的分布式计算系统。