hadoop
文章平均质量分 66
okie-dokie
...
展开
-
一个巨常用的reduce
public class CommaSeparateStringReduce extends MapReduceBase implements Reducer<Text, Text, Text, Text> { @Override public void reduce(Text key, Iterator<Text> values, OutputCollec...2009-03-06 12:03:39 · 107 阅读 · 0 评论 -
hadoop cdh 安装笔记
3https://ccp.cloudera.com/display/CDHDOC/CDH3+Installationhttps://ccp.cloudera.com/display/CDHDOC/HBase+Installationhttps://ccp.cloudera.com/display/CDHDOC/ZooKeeper+Installationhttps://c...2012-06-11 16:52:21 · 120 阅读 · 0 评论 -
Avro1.5.4
Avro API又变了 囧 版本1.5.4 import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import org.apache.avro.Schema;import org.apache.a...原创 2011-10-09 11:03:55 · 97 阅读 · 0 评论 -
hadoop乱码
文件存入hadoop出现乱码,尤其是在windows下的cygwin环境测试时候 囧 建议使用如下配置,而不是去改hadoop源码: hadoop-env.shexport HADOOP_OPTS="-server -Dfile.encoding=utf-8 -Duser.language=zh" mapred-site.xml<property>...原创 2011-03-07 19:12:12 · 238 阅读 · 0 评论 -
hadoop.20.2 new api
0.20版本的API发生了较大变化,新的类层次组织在包 org.apache.hadoop.mapreduce下。 package hi;import java.io.IOException;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apa...原创 2010-06-08 21:08:32 · 70 阅读 · 0 评论 -
Partitioner, SortComparator and GroupingComparator in Hadoop
hadoop 0.20.2 api里面,作业被重新定义到了类 org.apache.hadoop.mapreduce.Job。它有3个特别的方法:job.setPartitionerClass(Partitioner p);job.setSortComparatorClass(RawComparator c);job.setGroupingComparatorClass(RawCo...2010-08-24 22:41:26 · 74 阅读 · 0 评论 -
RawComparator
RawComparator用于 Writable对象的比较,例如:Job.setSortComparatorClass(Class <? extends RowComparator>);Job.setGroupingComparatorClass(Class <? extends RowComparator>); 能作为Key的 Writable有...原创 2010-08-09 18:21:50 · 148 阅读 · 0 评论 -
map/reduce template
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;im...原创 2010-08-09 17:30:26 · 79 阅读 · 0 评论 -
hadoop project 学习总结
hadoop 项目源自于google的几篇论文 http://labs.google.com/papers/gfs.htmlhttp://labs.google.com/papers/mapreduce.htmlhttp://labs.google.com/papers/bigtable.htmlhttp://labs.google.com/papers/chubby.html...2009-09-04 18:40:19 · 143 阅读 · 0 评论 -
自定义OutputFormat
自定义一个OutputFormat,用于输出<Text, MapWritable>格式的数据 MapWritable的内容是 [Text: LongWritable]输出格式 [url url2:times2,url3:times3,...] 参考TextOutputFormat,修改简化之 public class TextAndMapW...2009-03-12 09:49:21 · 223 阅读 · 0 评论 -
换个思路想问题
原始数据格式 url:uid,times 目标输出 url1:url2,url3 由原始格式生成以下两种格式url:uid1,uid2,uid3,...uid:url1,url2,url3,...然后,把第二条填入第一条,就是结果 --- --- ---问题是。。。hadoop一次出不了多重结果。。。 囧 解决方法,把每条uid:url1,url2,ur...2009-03-06 12:48:07 · 120 阅读 · 0 评论 -
数据切分
String initData = "N.O.\t1,2,3,4,5,6,7,8,9";String[] items = initData.split("[\\s]");for (int i = 1; i < items.length; i++) { Object[] head = ArrayUtils.subarray(items, 1, i); Object[] t...2009-03-06 12:17:31 · 83 阅读 · 0 评论 -
not hadoop but map/reduce
map/reduce 是很通用的,并非只有在hadoop上才能使用,不要被限制。处理已排序的列表,在内存和计算的消耗上都是很低的。 Mapper package mapreduce;import java.util.ArrayList;import java.util.List;import java.util.Map;import java.util.Tree...2012-06-26 11:18:42 · 79 阅读 · 0 评论