hadoop
文章平均质量分 78
泛滥年代
hadoop,hbase,spark...
展开
-
RCFile的文件格式及创建与读取
一、格式RCFile分为两部分:Header和Record1、header: version:由4个字节组成,前3个字节为‘R’,‘C’,‘F’,之前也直接用过secequencefile的‘S’,‘E’,‘Q’。第4个字节为版本号。这部分主要表明这是一个RCFile 。 compression:一个boolean,表明数据是否被压缩。原创 2013-11-20 14:05:07 · 5133 阅读 · 0 评论 -
Map/Reduce操作RCFile的RecordReader
RCFile作为一种特殊的SequenceFile,Map/Reduce使用RCFile作为输入,需要实现SequenceFileInputFormat的RecordReader方法。 针对hadoop新接口的RecordReader个人实现如下:package com.unimas.hyl.mr;import java.io.IOException;import jav原创 2013-12-18 18:14:02 · 1134 阅读 · 0 评论