hadoop
文章平均质量分 79
彩笔程序猿zxxxx
这个作者很懒,什么都没留下…
展开
-
Shuffle过程详解及优化
1.MapReduce ShuffleMap是映射,负责数据的过滤分 发;Reduce是规约,负责数据的计算归并。Reduce的数据来源于Map,Map的输出即是Reduce的输入,Reduce需要通过 Shuffle来获取数据。 从Map输出到Reduce输入的整个过程可以广义地称为Shuffle。Shuffle横跨Map端和Reduce端,在Map端包括Spill过程,在Reduc...原创 2018-08-23 00:13:55 · 21938 阅读 · 1 评论 -
Hadoop问题总结
1.combine、partition和shuffer的区别?combine:把同一个key的键值对合并在一起,combine函数把一个map函数产生的<key,value>对(多个key,value)合并成一个新的<key2,value2>,将新的<key2,value2>作为输入到reduce函数中,这个value2亦可称之为values,因为有多...原创 2018-08-24 10:36:56 · 280 阅读 · 0 评论 -
HDFS的SecondaryNameNode
HDFSHDFS 采用Master/Slave的架构来存储数据,该架构主要由四个部分组成HDFS Client NameNode DataNode SecondaryNameNodeHDFS体系结构HDFS体系结构HDFS Client文件切分,文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储与 NameNode 交互,...原创 2018-08-24 10:04:38 · 2098 阅读 · 0 评论 -
Hadoop容错机制
简单介绍一下Hadoop中数据存储的可靠性和完整性,其中包括HDFS的容错机制、NameNode(元数据结点)的单点失效解决机制、Block数据块的多副本存储机制、NameNode与DataNode之间的心跳检测机制、数据存储等。(一)HDFS中NameNode单点问题HDFS这种分布式的存储系统,存在中心结点,那么这个中心结点的可靠性就是整个集群的可靠性的关键,对于版本0.20.x的...原创 2018-08-24 10:03:39 · 2208 阅读 · 0 评论 -
Hadoop HA高可用解析以及脑裂问题
Hadoop1.x:Hadoop 的两大核心组件 HDFS 的NameNode 和 JobTracker 都存在着单点问题。Hadoop2.x :HDFS的NameNode 和 YARN的ResourceManger 的单点问题可以解决。SecondaryNameNode保存的状态总是滞后于NameNode,所以这种方式难免会导致丢失部分数据,也可以解决。(NameNode和Resourc...原创 2018-08-23 00:27:51 · 1621 阅读 · 0 评论 -
Hadoop之NameNode、DataNode
Namenode名字节点对于Namenode的分析,分以下几个部分: 文件系统目录树管理 数据块和数据节点管理 租约管理 租约是Namenode给与租约持有者(客户端)在规定时间内拥有文件权限(写文件)的合同,Namenode会执行租约的发放、回收、检查以及恢复等操作。 缓存管理 2.3新增了集中式缓存管理功能,允许用户将文件和目录保存到HDFS缓存中。...原创 2018-08-23 00:25:03 · 5452 阅读 · 0 评论 -
MapReduce作业运行过程
JobClient的runJob()方法:新建JobClient实例,并调用其submitJob()方法。提交作业后,runJob()每秒轮询作业进度,如果发现上次上报后信息有改动,则把进度报告输出到控制台。作业完成,成功则显示作业计数器;失败则输出错误到控制台。 (一)JobClient的submitJob()的作业提交过程:1. 向JobTracker请求一个新jobID,通过J...原创 2018-08-23 00:21:58 · 258 阅读 · 0 评论 -
HDFS块大小默认为什么是64MB(或者是128MB)
块的大小设置原则:最小化寻址开销。块越大寻址时间越短。如果块设置的足够大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间,因而,传输一个由多个块组成的文件的时间取决于磁盘的传输速率。但是这个数也不会设置的过大,mapreduce中的map任务通常一次只处理一个块中的数据,因此如果任务数太少(少于集群中节点的数量),运行速度会很慢主要由以下考虑: 减少硬盘寻道时间(dis...原创 2018-08-23 00:18:37 · 3394 阅读 · 0 评论 -
HDFS负载均衡
HDFS副本摆放策略第一副本:放置在上传文件的DataNode上;如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点上;第二副本:放置在于第一个副本不同的机架的节点上;第三副本:与第二个副本相同机架的不同节点上;如果还有更多的副本:随机放在节点中; 需要注意的是:HDFS中存储的文件的副本数由上传文件时设置的副本数决定。无论以后怎么更改系统副本系数,这个文件...原创 2018-08-23 00:16:27 · 432 阅读 · 0 评论 -
Hadoop之HDFS文件读写过程
HDFS读过程HDFS API 读文件 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); Path file = new Path("demo.txt"); FSDataInputStream inStream = fs.open(file);...原创 2018-08-23 00:15:56 · 9651 阅读 · 0 评论 -
Hive分析窗口函数 GROUPING SETS、GROUPING__ID
目录1.概述2.数据准备2.1数据格式2.2创表语句3.GROUPING SETS和GROUPING__ID3.1 GROUPING SETS例13.1.1查询语句3.1.2等价于3.1.3查询结果3.1.4 结果说明3.2GROUPING SETS 例23.2.1 查询语句3.2.2 等价于3.2.3 查询结果3.3GROU...原创 2019-06-26 17:34:31 · 5213 阅读 · 0 评论