hadoop初步学习

最新推荐文章于 2024-08-01 16:11:59 发布

Bibaosi

最新推荐文章于 2024-08-01 16:11:59 发布

阅读量535

点赞数

文章标签：大数据 Hadoop Hadoop入门学习

本文链接：https://blog.csdn.net/Bibaosi/article/details/103407949

版权

Hadoop主要有hdfs,MapReduce,yarn三部分
hdfs: 将海量数据以文本文件的形式存储
MapReduce:海量数据的分析 map:个节点并发进行运算 reduce:在多个集群中选择节点进行汇总
将整个求和任务分成两个步骤，第一个步骤局部求和，这样可以并发进行；第二个步骤必须全局处理，用一个线程来执行，但是它的输入数据集已经很小，不会成为瓶颈
yarn:资源管理调度

hdfs的实现思想:

	1` hdfs是通过分布式集群来存储文件的,为客户端提供一种便捷的访问方式,就是一个虚拟的目录结构
	2`文件存储到hdfs集群中的时候是被分切成block的 
	3`文件的block存放在若干台datanode节点上
	4`hdfs文件系统中的文件与真实的block之间有映射关系(namenode管理),客户端通过虚拟目录到namenode获取block所在datanode节点读取数据
	5`每一个block在集群中会存储多个副本,好处是可以提高数据的可靠性,还可以提高访问的吞吐量

Bibaosi

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop初步学习

Hadoop主要有hdfs,MapReduce,yarn三部分hdfs: 将海量数据以文本文件的形式存储MapReduce:海量数据的分析 map:个节点并发进行运算 reduce:在多个集群中选择节点进行汇总将整个求和任务分成两个步骤，第一个步骤局部求和，这样可以并发进行；第二个步骤必须全局处理，用一个线程来执行，但是它的输入数据集已经很小，不会成为瓶颈yarn:资源管理调度h...
复制链接

扫一扫