hadoop
雾岛与鲸
这个作者很懒,什么都没留下…
展开
-
Hive输入表为压缩格式时,MapReduce的输入过程是怎样的?相关源码分析
先提出一个问题,数仓hive任务的输入表为压缩格式的时候,MapReduce针对输入过程是如何处理的?提出两种猜想:1、先解压缩,再切片,然后进行mapreduce接下来的阶段2、先切片,再解压缩读取,然后进行mapreduce接下来的阶段针对上面提出的问题,进行相关的mapreduce源码分析...原创 2021-11-19 15:25:44 · 754 阅读 · 0 评论 -
Hive脚本: Unable to close file because the last block does not have enough number of replicas 报错分析
一、问题跑spark或hive脚本报错如下:[INFO] 2020-03-31 11:06:03 -> java.io.IOException: Unable to close file because the last block does not have enough number of replicas. at org.apache.hadoop.hdfs.DFSOutputStream.completeFile(DFSOutputStream.java:2266) at org转载 2020-09-14 16:45:05 · 3996 阅读 · 0 评论 -
mapreduce 容错相关参数
容错相关参数一、mapreduce.map.maxattempts每个Map Task最大重试次数,一旦重试参数超过该值,则认为Map Task运行失败,默认值:4。二、mapreduce.reduce.maxattempts每个Reduce Task最大重试次数,一旦重试参数超过该值,则认为Map Task运行失败,默认值:4。三、mapreduce.job.maxtaskfailures.per.tracker当失败的Map Task失败比例超过该值为,整个作业则失败,默认值为0. 如果你的原创 2020-08-25 10:23:07 · 627 阅读 · 0 评论 -
mapreduce 内存分配(资源相关参数)
稍微对mapreduce有点使用经验的同学肯定对OOM并不陌生,对的,我目前在mapreduce里面遇到的最多的错误也是内存分配出错,所以看到好多hadoop执行脚本里面有好多关于内存的参数,虽然是知道和内存分配有关系,但是依然不太清楚其中的原理,查阅相关资料,稍作整理如下:关于mapreduce程序运行在yarn上时内存的分配一直是一个让我蒙圈的事情,单独查任何一个资料都不能很好的理解透彻。于是,最近查了大量的资料,综合各种解释,终于理解到了一个比较清晰的程度,在这里将理解的东西做一个简单的记录,以备忘原创 2020-08-05 17:10:48 · 2885 阅读 · 0 评论 -
yarn上显示activenode为0和资源都为0, 问题排查
查看NodeManager的日志日志记录如下:2020-05-18 13:50:16,454 INFO org.mortbay.log: Started HttpServer2$SelectChannelConnectorWithSafeStartup@0.0.0.0:80422020-05-18 13:50:16,454 INFO org.apache.hadoop.yarn.webapp.WebApps: Web app /node started at 80422020-05-18 13:50原创 2020-08-05 17:07:58 · 2916 阅读 · 0 评论 -
hive表删除分区后,重新插入,查询不到数据问题
1、选择一张分区表(本次取的是内部表),把分区数据取到本地。[root@hadoop001 hiveData]# hadoop fs -get /user/hive/warehouse/emp_dept_partition/deptno=30/000000_0 emp_dept_partition-deptno30[root@hadoop001 hiveData]# lsdept emp_dept_partition-deptno30 emp.txt2、删除该分区hive> ALTER原创 2020-07-30 18:11:26 · 3127 阅读 · 0 评论 -
Hive SQL任务执行报错 (Container killed on request. Exit code is 143)
错误描述执行 hive 任务报错Diagnostic Messages for this Task:Container [pid=27756,containerID=container_1460459369308_5864_01_000570] is running beyond physical memory limits. Current usage: 4.2 GB of 4 GB physical memory used; 5.0 GB of 16.8 GB virtual memory use原创 2020-07-22 10:41:21 · 5796 阅读 · 0 评论 -
MapReduce二次排序
默认情况下,Map输出的结果会对Key进行默认的排序,但是有时候需要对Key排序的同时还需要对Value进行排序,这时候就要用到二次排序了。下面我们来说说二次排序1、二次排序原理 我们把二次排序分为以下几个阶段Map起始阶段 在Map阶段,使用job.setInputFormatClass()定义的InputFormat,将输入的数据集分割成小数据块split,同时InputForm...原创 2018-04-22 17:10:16 · 391 阅读 · 0 评论 -
hadoop的mapreduce执行
map任务的输出阶段,输出的内容可能会被分了好几个区,执行shuffle阶段的时候,由于每个map任务的完成时间可能不同,当只有一个map任务完成,reduce任务就开始复制其输出,这就是shuffle的copy阶段,对应的map任务和reduce任务只复制,sort同一个分区map的数据。从shuffle的过程可以看出,map任务处理的是一个inputsplit,而reduce任务处理的是所有m...原创 2018-04-22 12:27:30 · 354 阅读 · 3 评论 -
Hadoop:HDFS数据存储与切分
Hadoop入门教程:HDFS数据存储与切分,在Hadoop中数据的存储是由HDFS负责的,HDFS是Hadoop分布式计算的存储基石,Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。那么HDFS相比于其他的文件系统有什么特征呢?简单总结有如下的基本特征:对于整个集群有单一的命名空间。数据一致性。适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在。(Dat...转载 2018-04-22 11:55:54 · 1148 阅读 · 0 评论