![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MapReduce
文章平均质量分 81
一无所有自知之明
热爱生命偶尔悲悯的乐观孩子
展开
-
MR中Partition的使用 源码示例
一、环境1、hadoop 0.20.22、操作系统Linux二、背景1、为何使用Partitioner,主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。2、结果能够直观,同时做到对数据结果的简单的统计分析。三、实现1、输入的数据文件内容如下(1条数据内容少,1条数据内容超长,3条数据内容正常):kaka 1 28hua 0 26chao原创 2011-12-24 11:35:30 · 2129 阅读 · 0 评论 -
eclipse写MAPREDUCE程序对HBase表进行操作之 IndexBuilder(对已有表建索引)
开源 hbase的example/mapreduce里有个类IndexBuilder是用来对已有表建索引的。其代码有一点点需要修改conf.set(TableInputFormat.SCAN, TableMapReduceUtil.convertScanToString(new Scan()));conf.set(TableInputFormat.SCAN, convertScanToSt原创 2012-01-09 20:18:41 · 8841 阅读 · 7 评论 -
实验hbase的test中的TestTableMapReduce类--修改成简单易懂点的
不积跬步,无以至千里!这几天狂看mapreduce对hbase进行操作的例子,消化吸收,熟能生巧,掌握mapreduce和hbase交互的各个细节,以及整体流程等,整体流程等年前写一篇总结下,这几天先狂看吧看,复制,修改,运行,遇到各种问题,解决,慢慢的就熟了。这个类是干啥的呢,其实就是对hbase的某表进行简单操作,不过用的是mapreduce,即效率高,当然,看这个,主要吸收其用m原创 2012-01-10 15:29:53 · 3713 阅读 · 0 评论 -
用MR(MapReduce)查询hbase数据-用到TableMapper和Scan
首先,可以设置scan的startRow, stopRow, filter等属性。于是两种方案:1.设置scan的filter,然后执行mapper,再reducer成一份结果2.不用filter过滤,将filter做的事传给mapper做进行了测试,前者在执行较少量scan记录的时候效率较后者高,但是执行的scan数量多了,便容易导致超时无返回而退出的情况。而为了实现后者,学会了如何原创 2012-01-12 20:32:15 · 27937 阅读 · 13 评论 -
用mapreduce来操作hbase的两点优化
用MR来对hbase的表数据进行分布式计算。有两点配置可以优化操作,提升性能。它们分别是:(1)scan.setCacheBlocks(false); 然后调用下面这句来初始化map任务 TableMapReduceUtil.initTableMapperJob这个配置项是干什么的呢? 本次mr任务scan的所有数据不放在缓存中,一方面节省了交换缓存的操作消耗,可以提升原创 2012-11-29 10:08:29 · 4938 阅读 · 0 评论