一天一个blog压力有点大,今天写个水点的,我的一个hadoop的比较二的应用方式。
今天在一个产品线里写了个挺有意思的map reduce应用,就是我在map reduce的节点上再次启动了个map reduce任务。由此,节点间形成一个类似于树状的层次结构。和预期的一样,跑的还挺欢快的。
说一下具体应用吧。比如这次,我是在reducer中启动子map reduce,那么你显然要解决子map reduce的输入输出问题,我的处理方式就是获取标准输入再put到HDFS上作为子任务的input。还要注意的一点是,由于父任务和子任务的使用的集群或目录可能不同,注意指定相应的UGI。
不过话说回来,这种用法还真没什么用。因为我们完全可以把它拆分开。