![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 50
iteye_6298
这个作者很懒,什么都没留下…
展开
-
Configuration简析
以下分析基于Hadoop-0.19.2 我们在写job的时候经常会写这么一句[code="java"]JobConf conf = new JobConf(***.class)[/code] 显而易见,这是加载Hadoop的配置。虽然整个过程简单说无非就是读取配置文件,但还是来简单分析一下内部是如何进行处理的。看一下JobConf这个类的...原创 2011-08-09 10:30:33 · 145 阅读 · 0 评论 -
使用hadoop序列化机制时的一点小问题
其实在现在接触到的数据处理中还没怎么碰到到需要自己实现序列化对象的情况。偶然看到一篇文章,说的是由于偷懒而造成序列化和反序列化时造成的不必要的时间和空间消耗。其实如果自己遇到这种问题,应该也会使用同样偷懒的方法。这里说明一下,以便提醒自己要这么做时,是否考虑到了性能方面的问题。 原文地址:[url]http://teddziuba.com/2008/04/dont...原创 2012-02-25 17:07:24 · 81 阅读 · 0 评论 -
RCFile浅析
RCFile是Facebook制定的一种数据格式,应用在Hive、pig等系统中。RCFile结合了行存储和列存储的优点,对数据进行行分割和列分割后存储。行分割形成的多行组成一个row split,每个row split里面进行列分割。即:一个row split表示多行数据,row split内部的一行表示一列数据。需要注意的是:RCFile中的“key”和“value”一般不与MR...原创 2013-07-11 16:52:33 · 617 阅读 · 0 评论 -
hadoop中迭代器的对象重用问题
在用reduce时出现一个问题,在这上面耗费了好些时间,一直以为是业务逻辑方面的问题,不曾想是技术上的问题:reduce中迭代器返回对象的问题。写此blog以纪念在解决这个问题时的怂……囧 先看这个reduce的实例:[code="java"]public static class sellerInfoReduce extends MapReduceBas...原创 2012-05-07 18:58:43 · 301 阅读 · 0 评论 -
mapreduce输出文件的重命名
之前看过,但用到的时候又忘记了……做下备注,以防忘记 重写MultipleOutputFormat的String generateFileNameForKeyValue(K key, V value, Configuration conf)方法。...原创 2012-06-27 19:35:41 · 439 阅读 · 0 评论 -
编译libhdfs
Mysql Applier是Mysql向hdfs进行实时备份的工具。其中用到了libhdfs,是hadoop提供的C语言访问hdfs的接口。以下是编译过程和遇到的问题。 libhdfs编译过程比较顺利,执行如下命令即可:[code="java"]ant compile-c++-libhdfs -Dislibhdfs=true[/code]下面的官方...原创 2014-02-25 15:32:40 · 265 阅读 · 0 评论 -
Hive自定义UDAF详解
遇到一个Hive需求:有A、B、C三列,按A列进行聚合,求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成,但是比较繁琐,会解析成几个MR进行执行,如果自定义UDAF便可只利用一个MR完成任务。 所用Hive为0.13.1版本。UDAF有两种,第一种是比较简单的形式,利用抽象类UDAF和UDAFEvaluator,暂不做讨论。主...原创 2014-07-25 14:14:16 · 688 阅读 · 0 评论