Hadoop
文章平均质量分 64
decster
这个作者很懒,什么都没留下…
展开
-
Bash中使用管道时如何正确捕捉返回值
工作中需要构造一个数据传输工具,用来抓取ftp前端机的web日志并直接写入HDFS,该工具直接作为hadoop mapreduce任务定时执行,所以最好不使用文件脚本以免去分发文件的繁琐,能一句命令搞定最好。如何抓取ftp前端机的web日志并写入HDFS? 管道(pipe),命令如下:wget $SRC_URL --limit-rate=%s --tries=1 -O - | hadoop fs -put - $DESTPATH一行命令,可以直接当成-mapper的参数,不需要额外写文件脚本原创 2010-12-28 23:29:00 · 3440 阅读 · 0 评论 -
用Python实现一个细粒度hadoop作业监控分析工具
在使用或者管理维护hadoop集群的时候,监控工具是必不可少的,hadoop集群相关的监控工具有ganglia,chukwa,功能强大,可以监控整个集群的资源使用状况。但是面对一些问题,比如具体到单个job,mapper,ruducer粒度的测试,profiling,性能调优等,ganglia,chukwa等集群监控工具的监控粒度似乎有些大,好像没有提供针对单个job->task->task-attempt级别的性能数据采集与监控(对它们了解比较少,可能有这个功能我没找到?)正好最近在尝试优化mapredu原创 2011-01-30 16:19:00 · 3715 阅读 · 3 评论 -
hadoop jobtracker结构分析(0.20)
浏览hadoop代码时整理的jobtracker部分的脑图, 学习hadoop的同学可能会有帮助, 仅供参考原创 2011-09-01 21:20:07 · 1629 阅读 · 0 评论