快乐程序员的专栏

专注于hadoop运维,大数据处理,即席查询,hadoop生态圈组件研究

一次因为数据问题引起的reduce被卡住streaming作业问题排查

广告产品技术部有一个作业总是卡在某个reduce上,运行了好几个小时也运行不完,经过他们初步排查找不着问题原因,发邮件让我帮看看,我看了一下这个streaming作业是用python实现的,而且听他们描述,3月17之前该作业是没问题的,以下是可能存在问题的地方:

2015-03-21 11:27:05

阅读数 2416

评论数 0

Yarn shuffle OOM错误分析及解决

前两周和同事一起分析了一下yarn shuffle oom的问题,最后他写了一个blog,我这里就不重复写了,把他的转载过来,他的blog写得都很有深度,推荐大家去看看。 原文地址:http://dj1211.com/?p=358 最近集群中一些任务经常在reduce端跑出Shuffle OOM...

2015-03-19 13:27:08

阅读数 2408

评论数 1

hive中使用正则表达式不当导致运行奇慢无比

业务保障部有一个需求,需要用hive实时计算上一小时的数据,比如现在是12点,我需要计算11点的数据,而且必须在1小时之后运行出来,但是他们用hive实现的时候发现就单个map任务运行都超过了1小时,根本没法满足需求,后来打电话让我帮忙优化一下,以下是优化过程:

2015-03-19 13:20:42

阅读数 2489

评论数 1

Spark RDD API详解(一) Map和Reduce

转载地址:https://www.zybuluo.com/jewes/note/35032 RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存...

2015-03-02 17:19:51

阅读数 1028

评论数 0

理解Spark的核心RDD

转载地址:http://www.infoq.com/cn/articles/spark-core-rdd 与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,...

2015-03-02 14:38:58

阅读数 809

评论数 0

通过sed和awk获取集群最新挂掉的DataNode信息

由于之前远程桌面不好使,集群出现了missing block的时候没法登陆远程桌面查看是那些节点由于重启导致DataNode进程挂掉。同时简单的用命令hdfs dfsadmin -report查看又不方便,信息量太多,以下是一个用sed和awk实现的简单的脚本:

2015-02-26 10:40:14

阅读数 1039

评论数 0

MapReduce中使用字符串拼接导致的问题

今天在帮业务方优化mapreduce作业时遇到一个用字符串拼接的问题。

2015-02-25 16:09:59

阅读数 2074

评论数 0

hive-0.13固化自定义UDF

之前帮业务方固化过hive-0.7的自定义的UDF,由于现在大部分业务数据都已经迁移到hadoop2.4.0,hive使用的版本是0.13,之前固化的UDF不能用了,让在0.13上面也固化一下,以下是固化过程:

2015-02-06 18:40:08

阅读数 1553

评论数 0

DistributedRaidFileSystem引起的HDFS RAED不准问题

在测试环境和线上运行相同的hql,而且表对应的数据量都是95G左右,但是发现在测试环境和线上的counter:HDFS RAED不一致,而且差一个数量级,线上只有8G左右,而测试环境达到95G,基本上就是全文件扫描,没有体现出RCFile的优势。

2015-01-18 22:57:19

阅读数 1048

评论数 0

hadoop2.4.0的distcp引起的问题

最近在支持业务部门将数据从hadoop0.20.203迁移到hadoop2.4.0的时候,distcp报了几个错误,在这里记录一下:

2015-01-06 12:46:14

阅读数 4070

评论数 0

hadoop2.0的mapreduce作业classpath研究

hdfs raid从facebook移植过来很久了,包括hadoop0.20.203和hadoop2.4.0版本,但是最近才准备上线hadoop2.4.0版本的hdfs raid,上线前准备在好好测试测试,确保上线顺利,hdfs raid代码分成两部分,一部分是hdfs下面的代码,这部分代码上一次...

2014-12-25 13:14:46

阅读数 4495

评论数 2

hadoop2.4 支持snappy

我们hadoop2,4集群默认不支持snappy压缩,但是最近有业务方说他们的部分数据是snappy压缩的(这部分数据由另外一个集群提供给他们时就是snappy压缩格式的)想迁移到到我们集群上面来进行计算,但是直接运行时报错:

2014-12-22 23:14:07

阅读数 4671

评论数 0

mapreduce作业reduce被大量kill掉

之前有一段时间,我们的hadoop2.4集群压力非常大,导致提交的job出现大量的reduce被kill掉,相同的job运行时间比在hadoop0.20.203上面长了很多,这个问题其实是reduce 任务启动时机的问题,由于yarn中没有map slot和reduce slot的概念,且Reso...

2014-12-15 23:22:17

阅读数 4607

评论数 0

hdfs增加ns之后,重启DN报clusterId不匹配错误

在测试环境准备测试FastCopy,因为之前只有一个NS,准备增加一个NS也便于测试,一切都准备妥当之后,重启DN,但是DN死活连接不上新的NN,报以下错误:

2014-12-09 22:23:58

阅读数 2025

评论数 0

reduce端缓存数据过多出现FGC,导致reduce生成的数据无法写到hdfs

reduce端缓存数据过多出现FGC,导致reduce生成的数据无法写到hdfs:搜索推荐有一个job,1000多个map,200个reduce,运行到最后只剩一个reduce(10.39.6.130上)的时候,出现以下异常,导致job失败。

2014-12-04 17:28:01

阅读数 4603

评论数 0

mac 安装jdk1.7出现Missing tools.jar解决方案

$ cd /Library/Java/JavaVirtualMachines/jdk1.7.0_17.jdk/Contents/Home/ $ sudo mkdir Classes $ sudo ln -s ../jre/lib/rt.jar classes.jar

2014-12-03 22:52:51

阅读数 1770

评论数 0

hadoop1.0 TaskTracker因为分布式缓存导致内存泄露的一次问题排查

hadoop1.0 TaskTracker因为分布式缓存导致内存泄露的一次问题排查

2014-11-29 18:36:18

阅读数 1616

评论数 0

rsync安全配置

rsync的部署我这里就不讲了,本文主要是讲怎么通过用户名和密码访问rsync

2014-11-27 12:59:28

阅读数 2759

评论数 0

SVN中branch的合并和打patch(2)

前一篇文章讲了svn的branch和trunk合并方法,本文会讲更简单的合并方式:

2014-11-21 16:14:54

阅读数 1435

评论数 0

SVN中branch的合并和打patch(1)

最近要在hadoop2.4上面上线hdfs raid,但是之前hdfs raid是作为svn 的branch开发的,领导希望通过patch的方式将hdfs raid功能打进trunk里面去,这里涉及到svn branch和trunk的合并问题,以下是hdfs raid 打patch的具体过程。

2014-11-20 11:40:39

阅读数 2350

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭