博客专栏  >  云计算/大数据   >  Hadoop案例实战

Hadoop案例实战

Hadoop相关算法实战,详细剖析相关算法。

关注
7 已关注
18篇博文
  • MapReduce排序

    一:背景 数据排序是许多实际任务执行时需要完成的第一项工作,比如给销售额进行排名、求top N等操作都需要用到排序,使用MapReduce对数据进行简单排序思路是非常简单的。因为MapReduce本...

    2015-04-10 13:34
    1002
  • MapReduce表连接操作之Reduce端join

    一:背景 Reduce端连接比Map端连接更为普遍,因为输入的数据不需要特定的结构,但是效率比较低,因为所有数据都必须经过Shuffle过程。 二:技术实现 基本思路 (1):Map端读取所有的文...

    2015-01-21 17:58
    2691
  • MapReduce表连接之半连接SemiJoin

    一:背景 SemiJoin,一般称为半连接,其原理是在Map端过滤掉一些不需要join的数据,从而大大减少了reduce和Shuffle的时间,因为我们知道,如果仅仅使用Reduce端连接,那么如果...

    2015-01-22 11:55
    846
  • MapReduce二次排序

    本文主要介绍下二次排序的实现方式 我们知道MapReduce是按照key来进行排序的,那么如果有个需求就是先按照第一个字段排序,在第一个字段相等的情况下,按照第二个字段排序,这就是传说中的二次排序...

    2015-01-19 17:23
    794
  • Hadoop多文件输出之MultipleOutputFormat和MultipleOutputs

    直到目前,我们看到的所有MapReduce作业都输出一组文件。但是,在一些场合下,经常要求我们输出多组文件或者把一个数据集分为多个数据集更为方便;比如将一个log里面属于不同业务线的日志分开来输出,并...

    2015-01-26 12:24
    856
  • 链式MapReduce:ChainMapper和ChainReducer

    一:背景 Hadoop2.0开始MapReduce作业支持链式处理,类似于富士康生产苹果手机的流水线,每一个阶段都有特定的任务要处理,比如提供原配件——>组装——打印出厂日期,等等。通过这样进一步的...

    2015-04-10 10:47
    1290
  • Hadoop小文件问题及解决方案

    1.概述 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每...

    2015-02-02 17:03
    1318
  • MapReduce求平均值

    一:背景 求平均数是MapReduce比较常见的算法,求平均数的算法也比较简单,一种思路是Map端读取数据,Reduce端汇总并且统计记录数,然后作商即可。 二:技术实现 #需求:现有成...

    2015-01-28 11:36
    1765
  • MapReduce TopK问题实际应用

    一:背景 TopK问题应该是海量数据处理中应用最广泛的了,比如在海量日志数据处理中,对数据清洗完成之后统计某日访问网站次数最多的前K个IP。这个问题的实现方式并不难,我们完全可以利用MapReduc...

    2015-01-28 11:51
    1667
  • MapReduce程序打成jar包在远程服务器运行

    一:背景 有时候,我们不想再程序中显示的指定输入路径和输出路径,因为那样不太灵活,不利于扩展,Hadoop提供了将程序打成jar包发到集群上通过命令行参数指定输入输出路径的方式运行程序。 二:技术...

    2015-01-17 20:55
    1492
  • Hadoop自定义分区Partitioner

    一:背景 为了使得MapReduce计算后的结果显示更加人性化,Hadoop提供了分区的功能,可以使得MapReduce计算结果输出到不同的分区中,方便查看。Hadoop提供的Partitioner...

    2015-01-17 22:03
    1225
  • MapReduce排序之 二次排序

    一:背景 Hadoop中虽然有自动排序和分组,由于自带的排序是按照Key进行排序的,有些时候,我们希望同时对Key和Value进行排序。自带的排序功能就无法满足我们了,还好Hadoop提供了一些组件可...

    2015-01-18 20:25
    674
  • MapReduce表连接操作之Map端join

    一:背景 MapReduce提供了表连接操作其中包括Map端join、Reduce端join还有半连接,现在我们要讨论的是Map端join,Map端join是指数据到达map处理函数之前进行合并的,效...

    2015-01-21 17:26
    2103
  • MapReduce自定义RecordReader

    一:背景 RecordReader表示以怎样的方式从分片中读取一条记录,每读取一条记录都会调用RecordReader类,系统默认的RecordReader是LineRecordReader,它是T...

    2015-01-23 12:38
    1760
  • MapReduce多个作业协调处理

    一:背景 当数据来源不同的时候,比如用户表在MYSQL数据库中,而销售表在HDFS中,我们可以启动多个作业来依次处理这些数据源。 二:技术实现 #需求 #用户表user在MYSQL数据...

    2015-01-25 14:55
    602
  • MapReduce求最大值

    一:背景 求最值是MapReduce的常见算法,应用也很广泛,比如说求出某大型销售网站各个站点销售量最大的商品,人口最多的城市等等,MapReduce求最大值的关键是要实现cleanUp()方法。 ...

    2015-01-28 11:22
    1782
  • MapReduce去重

    一:背景 很多数据源中的数据都是含有大量重复的,为此我们需要将重复的数据去掉,这也称为数据的清洗,MapReduce从Map端到Reduce端的Shuffle过程天生就有去重的功能,但是这是对输出的...

    2015-01-28 11:03
    989
  • Hadoop自定义计数器Counter

    一:背景 Hadoop计数器的主要价值在于可以让开发人员以全局的视角来审查程序的运行情况,及时作出错误诊断并进行相应的处理,Hadoop内置了很多计数器,这些计数器大致可以分为三组:MapRed...

    2015-01-16 14:19
    1467

Storm实战
711788
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部