Hadoop
文章平均质量分 74
jelek
这个作者很懒,什么都没留下…
展开
-
几种非交互执行脚本的方式
一般情况下,我们执行某一个脚本或者任务时,会有交互信息,例如 MapReduce 计算、Hbase 入库等。但是有时候我们不是很关心交互信息,希望它可以一直执行,中间结果可以保存在一个日志文件里面。怎么办呢,下面有几种方式可以解决这个问题。定义脚本的名称及路径为:/home/test/test.sh执行中间结果存储文件为:/home/test/output.log登录环原创 2013-11-05 15:27:53 · 1505 阅读 · 0 评论 -
hadoop mr reduce类变量使用问题整理
源数据假定有一份学生成绩数据每行数据格式为:学号,课程ID,成绩。目标我们用mr实现计算每个学生的平均成绩、有效课程数与总分。步骤1.用map读取数据。key:学号value:成绩2.用reduce计算得到平均成绩和总成绩,并输出最终结果。这里仅给出reduce参考代码(暂不考虑数据异常等问题):public static class Reduce exte原创 2015-01-19 12:32:03 · 750 阅读 · 0 评论 -
用MapReduce 模拟日志发送,在Storm的Spout中接收UDP数据
背景:在Storm测试环境中,有时我们无法拿到真实的发送日志数据。为了便于测试,可以用模拟的数据来代替。主要步骤:1.了解带发送的数据文件格式,及存储方式,比如存放在HDFS上,这样很方便MapReduce来读取;2.编写MapReduce逻辑,读取对应的日志文件,配置接收端的ip及端口信息,以可控制的速率发送日志;3.在Spout中,编写UDP接收服务器,用队列的方式接收发送原创 2013-08-11 09:16:47 · 1739 阅读 · 0 评论 -
在 Map[Reduce] 的 setup 中读取 HDFS 文件夹信息
有时候,我们想在 Map 或者 Reduce 执行前读取一些数据信息(量相对比较小),就可以在 setup 中来完成该操作。相关定义1.在HDFS上某一文件夹下存放用户信息列表:/user/data/userinfo/part-00000/user/data/userinfo/part-00001.../user/data/userinfo/part-00020原创 2013-11-08 16:46:18 · 6309 阅读 · 1 评论