Hadoop
文章平均质量分 80
纳米团队
很多事情现在不做,就再也不会做了
展开
-
hadoop自定义数据类型
很多时候我们都需要实现自己的数据类型,可以通过实现Writable接口来实现自己的需要,其中只要实现两个方法即可,readFields(DataInput in) 方法和 write(DataOutput out)方法。举例如下供参考:public class ImageVector extends Vector implements Writable{ public dou原创 2013-04-22 15:48:37 · 584 阅读 · 0 评论 -
hadoop自定义多文件及多文件夹输出
博主用的是hadoop1.0.4版本。实现多文件及多文件夹输出主要用到MultipleOutputs这个类。这是包路径 org.apache.hadoop.mapreduce.lib.output。偏好用最简单的例子分举例分析如下:public class WordCount { public static class TokenizerMapper extends Mappe原创 2013-04-22 15:25:23 · 824 阅读 · 0 评论 -
hadoop自定义文件的输入格式
首先还是先讲下hadoop的文件输入经过这么个过程处理的,文件——>splits划分成N多inputsplit(这就是每个mapper处理的数据单元)——>RecordReader划分成M多对(每次map()函数处理的数据单元)。hadoop默认使用的是TextInputFormat的格式继承了FileInputFormat,要实现自己的文件输入格式,就需要继承FileInputFormat类.。原创 2013-04-22 16:20:17 · 692 阅读 · 0 评论 -
hadoop自定义文件输出格式
自定义文件的输出格式相对于输入格式来说就简单一些,在自己的输出格式里面实现RecordWriter接口即可,关键是同步写方法的实现可以把key,value的输出控制的很灵活,看看例子吧:public class ImageOutputFormat extends TextOutputFormat { protected static class Writer extends R原创 2013-04-22 17:03:14 · 913 阅读 · 0 评论 -
hadoop的shuffle过程
1 综述shuffle过程分两阶段,一个是mapper端的清理,一个是reducer端。2 mapper端处理1>划分 Mapper处理后得到对,例如。现在需要决定由哪个reducer来处理这个键值对,现在就需要Partitioner通过hash(键)来决定,通过实现这个getPartition(KEY key, VALUE value, int numPar原创 2013-04-23 20:51:03 · 597 阅读 · 0 评论 -
hadoop 参数
集群升级,参考一下。http://www.tbdata.org/archives/1470hadoop作业调优参数整理及原理摘要:1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生1 Map s转载 2013-06-29 10:52:59 · 477 阅读 · 0 评论