Hadoop
文章平均质量分 65
inte_sleeper
这个作者很懒,什么都没留下…
展开
-
Hadoop跑map-reduce任务时停滞不前的问题
Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE原创 2011-06-28 11:27:00 · 4850 阅读 · 5 评论 -
Map-Reduce的过程解析
转自:http://www.cnblogs.com/forfuture1978/archive/2010/11/19/1882268.html一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的:public static RunningJob runJob(Jo转载 2012-11-26 14:36:54 · 624 阅读 · 0 评论 -
ProtocolBuffer和lzo技术Hadoop系统上的使用
转自:http://www.searchtb.com/2010/09/pb-lzo-used-in-hadoop.html概述基于hadoop的集群分布式数据处理目前是淘宝搜索中心最重要的数据处理平台,在集群物理条件确定的情况下,有几个方面影响了数据处理的速度。1、数据大小 (影响磁盘IO和网络IO)2、数据格式 (影响数据的解析及构造速度)3、并行度使用 prot转载 2012-08-11 16:29:09 · 1005 阅读 · 0 评论 -
hive中间结果和结果的压缩
hadoop中常见的压缩格式及特性如下:压缩格式工具算法文件扩展名多文件可分割性DEFLATE*无DEFLATE.deflate不不GzipgzipDEFLATE.gz不不ZIPzipDEFLATE.zip是是,在文件范围内bzip2bzip2原创 2012-05-16 14:14:18 · 3638 阅读 · 0 评论 -
Hadoop之combiner和partitioner
1. Combiner通常,每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。我们以计算特定key对应值的平均值为例,展示一下combiner的用法:class Mapper method Map(string t, integer r) Emit(string t, integer r原创 2012-01-31 14:33:56 · 3367 阅读 · 0 评论 -
基于map-reduce的并行最短路径算法
译自:Data-Intensive Text Processing with MapReduce, Chap.5.2一个有向图,由(V,E)组成,其中V是顶点的集合,E为联结各顶点的边,每条边e可能有相应的权重w。图的表示方式有两种:邻接矩阵和邻接表。其中对于节点数较少的图,用邻接矩阵表示较为方便,计算时也能充分应用矩阵计算的一些优势。但是当节点数特别大,需要借助map-reduce计翻译 2012-01-29 17:40:16 · 6523 阅读 · 1 评论 -
Hadoop reduce多个输出
转自:Hadoop in Action在hadoop中,想要reduce支持多个输出,有两种实现方式。第一种就是继承MultipleTextOutputFormat类,重写generateFileNameForKey方法。public static class PartitionByCountryMTOF extends MultipleTextOutputFormat转载 2011-12-05 14:18:11 · 4263 阅读 · 0 评论 -
Hadoop读取sequencefile和textfile文件内容
读取sequencefile,其中MockReporter是从Reporter接口派生出的一个假的reporter,它什么也不做(只实现那些接口): public static List parseSequenceFile(String path) throws IOException { List result = new ArrayList();转载 2011-11-25 10:37:06 · 6485 阅读 · 2 评论 -
Hadoop跑map-reduce任务时停滞不前的问题(二)
之前碰到过这个问题,是集群的配置问题。见http://blog.csdn.net/inte_sleeper/article/details/6572052今天又碰到这个问题啊,但是这次不是集群的问题了。。。调试了半天,发现其实是有一行输入数据特别巨大,一行数据10几M,而我的原创 2011-08-18 17:25:16 · 1346 阅读 · 0 评论 -
hbase时间戳踩坑小记
大家知道,像OB,HBase这种存储系统,插入数据的时候,一般数据上都会有一个时间戳(ts)。Hbase有一个TTL(time to live),可以标识数据的有效期,比如,可以把TTL设置成86400*1000,也就是说数据将于1天后过期。这是一个表级的设置,必须在建表时指定。但是如果说你需要存储某一天内的数据,到第二天0点失效。这种情况TTL是没法控制的,因为TTL只能控制数据在一段时原创 2013-09-14 17:16:32 · 9675 阅读 · 0 评论