HDFS
Rnan-prince
知是行之始,行是知之成(1352638748@qq.com)
展开
-
Hadoop,HDFS,Map Reduce,Spark,Hive,Yarn之间的关系
HadoopHadoop 生态圈(或者泛生态圈)是一个能够对大量数据进行分布式处理的软件框架,是大数据平台的开发工具,但不是一个单一的工具,也不是一种单一的技术,而是一系列技术和工具的合集。用户在不需要了解分布式底层细节的情况下,能够开发分布式程序。Hadoop大数据平台,采用分布式架构,包含多个与大数据处理相关的组件:HDFS、MapReduce、Yarn、Hbase、Hive、Spark、Kafak、Storm、HDF、Ambari等,并根据用户的实际需求完成功能定制。Hadoop框架中原创 2020-12-09 23:39:09 · 4987 阅读 · 0 评论 -
MapReduce的shuffle过程
一、MapReduce计算模型我们知道MapReduce计算模型主要由三个阶段构成:Map、shuffle、Reduce。Map是映射,负责数据的过滤分法,将原始数据转化为键值对;Reduce是合并,将具有相同key值的value进行处理后再输出新的键值对作为最终结果。为了让Reduce可以并行处理Map的结果,必须对Map的输出进行一定的排序与分割,然后再交给对应的Reduce,而这个将Map输出进行进一步整理并交给Reduce的过程就是Shuffle。整个MR的大致过程如下:Map和Re原创 2020-11-30 23:13:38 · 325 阅读 · 0 评论 -
HDFS读写数据的过程
1、数据单位: block :文件上传前需要分块,这个块就是block,一般为128MB,可以修改。因为块太小:寻址时间占比过高。块太大:Map任务数太少,作业执行速度变慢。它是最大的 一个单位。 packet :packet是第二大的单位,它是client端向DataNode,或DataNode的PipLine之间传数据的基本单位,默认64KB。 chunk :chunk是最小的单位,它是client向DataNode,或DataNode的PipLine之间进行数据校验的基原创 2020-12-01 00:06:49 · 3721 阅读 · 0 评论