在Hadoop上调试HadoopStreaming程序的方法详解 by 道凡

最新推荐文章于 2023-03-14 16:45:40 发布

azhao_dn

最新推荐文章于 2023-03-14 16:45:40 发布

阅读量2.9k

点赞数

分类专栏： hadoop 文章标签： hadoop 脚本 struct 文档测试

hadoop 专栏收录该内容

63 篇文章 0 订阅

订阅专栏

点击查看原文

Hadoop提供若干种在调试HadoopStreaming的方法，供你使用，方便你快速定位问题。

让HadoopStreaming程序跑在开发机上。（推荐在开发时使用）
在jobconf中加上mapred.job.tracker=local。数据的输入和输出都是来自HDFS
此时，HadoopStreaming会在本地运行程序
保留出错的现场（推荐在跑大数据量时使用）
通过设置jobconf参数keep.failed.task.files=true，当程序出错时，可以保留现以供
Debug。可以通过GUI查到到具体是在哪个节点运行失败，然后登陆到该节点<local>/taskTracker/<taskid>/work/ ，查看core文件。
通过script程序收集信息来调试程序（推荐在开发时使用）
编写调试脚本程序，通过脚本，可以把程序执行过程中任何现场都保留下来，比如
Core文件的堆栈信息，这样可以确定程序具体是在什么地方出错。
脚本的调用方式如下：
```
$script $stdout $stderr $syslog $jobconf 程序名
```
（注：在官方文档
http://wiki.apache.org/hadoop/HowToDebugMapReducePrograms 描述中程序名会通过第5个参数返回，但笔者在Hadoop 0.19的测试环境中，得到这个参数是空的。）
脚本示例：
```
core=`find . -name 'core*'`;
cp $core /home/admin/
gdb -quiet ./a.out -c $core -x ./pipes-default-gdb-commands.txt
```
pipes-default-gdb-commands.txt注明了执行的gdb命令
```
info threads
backtrace
quit
```
（注明：如果要正确执行以上的脚本，必须让程序能输出core文件，可以在程序中加入如下代码段）
```
struct rlimit limit;
limit.rlim_cur = 65535;
limit.rlim_max = 65535;
if (setrlimit(RLIMIT_CORE, &limit) != 0) {
    printf("setrlimit() failed with errno=%s\n", strerror(errno));
    exit(1);
}
```
然后在jobconf中，把要执行的script赋给变量”mapred.map.task.debug.script”或”mapred.reduce.task.debug.script”。这样当HadoopStreaming执行过程发生core dump，就可以通过JobTracker的GUI界面看到GDB的信息了。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。