mapreduce
ukakasu
这个作者很懒,什么都没留下…
展开
-
Hbase结合MapReduce批量导入数据
public class HbaseMR { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); conf.set("hbase.zookeeper.quorum", "192.168.1.182"); conf.set(TableO原创 2015-08-12 22:19:07 · 448 阅读 · 0 评论 -
MapReduce中自定义文件输出名
MR的输出结果默认为part-r-00000,我们可自定义易识别的名字替代part,如score-r-00000 job.setOutputFormatClass(MyOut.class); MyOut.setOutputName(job, "score");//自定义输出名 job.waitForCompletion(true); //自定义My原创 2015-08-05 19:50:55 · 5339 阅读 · 2 评论 -
一道hadoop面试题
使用Hive或者自定义MR实现如下逻辑 product_no lac_id moment start_time user_id county_id staytime city_id 13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571 28原创 2015-08-23 16:51:38 · 496 阅读 · 0 评论 -
python实现单词计数的mapreduce
map函数 import sys for line in sys.stdin: line = line.strip() words = line.split() for word in words : print "%s\t%s" % (word , 1) reduce函数 import sys current_word=None current_原创 2015-08-08 07:53:53 · 2377 阅读 · 0 评论 -
MapReduce中设置文件过滤器代码
FileInputFormat.setInputPathFilter(job, MyFilter.class);//在主函数中设置过滤器 //输入路径要以/*通配符结尾 //自定义过滤器 private static class MyFilter implements PathFilter{ public boolean accept(Path path) { return原创 2015-08-05 19:37:03 · 467 阅读 · 0 评论 -
设置Mapper数量与各节点container数量
container数目设置RM的内存资源配置,主要是通过下面的两个参数进行的(这两个值是Yarn平台特性,应在yarn-site.xml中配置好):yarn.scheduler.minimum-allocation-mbyarn.scheduler.maximum-allocation-mb说明:单个容器可申请的最小与最大内存,应用在运行申请内存时不能超过最大值,小于最小值则分配最小值,从这个角度...原创 2018-04-20 13:45:42 · 4789 阅读 · 0 评论