博客专栏  >  云计算/大数据   >  MapReduce

MapReduce

通过MapReduce的不同实例,说明MapReduce的写法以及不同组件的扩展方式

关注
3 已关注
13篇博文
  • MapReduce-Counter使用-快速实现大文件行数的统计

    在普通的java程序中我们可以定义一个全局的静态变量,然后我们可以在各个类中去使用,实现累加器的功能,然而在mapruduce中怎么实现这一功能呢,各个map可能运行在不同的JVM中(这里不考虑JVM...

    2016-03-25 16:33
    2375
  • MapReduce-定制Partitioner-使用NLineInputFormat处理大文件-求文件奇偶数行之和

    在上一篇《MapReduce-定制Partitioner-求文件奇偶数行之和》博客中有朋友提到“如果文件很大,就被分成了多个record,那么每个record中的文件的奇数和偶数相对于原来的文件来说,...

    2016-03-24 09:58
    855
  • MapReduce-Join中级优化-hadoop自带datajoin的解决方法

    接着上一篇《》这一篇博客继续说明MapReduce对于Join的操作,这里使用hadoop包中自带的datajoin包来处理,如果是hadoop1.x则包在${HADOOP_HOME}/contrib...

    2016-01-29 14:41
    693
  • MapReuce-Join操作-初级优化

    在上一篇《MapReduce-Join操作-初体验》的结论中说明了上述join方法的不足之处,这一篇中将说明针对上一篇的几个缺陷进行一些 一些改进,主要是针对上一篇提到几点: 1.效率低是因为在red...

    2015-12-30 10:52
    554
  • MapReduce-Join操作-初体验

    这一篇博客说说mapreduce的join问题,根据join的文件分别的数据量的大小,可以使用以下几种方式可以选择 1.repartition join -- reduce-side join 适用于...

    2015-12-29 11:13
    473
  • MapReduce-XML处理-定制OutputFormat及定制RecordWriter

    这一篇紧接上一篇博客《MapReduce-XML处理-定制InputFormat及定制RecordReader》,上一篇是说明InputFormat和RecordReader,这里说明OutputFo...

    2015-12-28 09:29
    793
  • MapReduce-XML处理-定制InputFormat及定制RecordReader

    这一篇说明如何自定义InputFormat以及RecordReader这两个组件,通过使用mapreduce处理xml文件格式的文件来说明其用法,这一个例子来自《hadoop硬实战》一书的技术点12讲...

    2015-12-25 09:25
    1458
  • MapReduce-定制Partitioner-求文件奇偶数行之和

    这篇博客说明Partioner定制的问题,partion发生在map阶段的最后,会先调用job.setPartitionerClass对这个List进行分区,每个分区映射到一个reducer。每个分区...

    2015-12-24 09:12
    752
  • MapReduce-自定义比较器

    接着上一篇MapReduce-三次排序-曾经想不通的二次排序把其实例的需求改变一下,来说明如何定制GroupingComparatorClass和SortComparatorClass 下面就完成这篇...

    2015-12-23 09:11
    933
  • MapReduce-三次排序-曾经想不通的二次排序

    上一篇博客说明了怎么自定义Key,而且用了二次排序的例子来做测试,但没有详细的说明二次排序,这一篇说详细的说明二次排序, 为了说明曾经一个思想的误区,特地做了一个3个字段的二次排序来说明。后面称其为“...

    2015-12-22 09:30
    1409
  • MapReduce-自定义Key-二次排序

    这个实例紧接上一个TopK的实例最后留下的一个问题的解决以及对新的一个技术点的说明,如何自定义输入输出的数据类型,这里也大概引出mapreduce中二次排序的大致思想,但不着重说明二次排序,只是大致说...

    2015-12-21 09:47
    1570
  • MapReduce-TopK

    上一篇博客中简单的写了一个MapReduce的程序,其中只重写了map()和reduce()方法,但里面还有cleanup(Context context), setup(Context contex...

    2015-12-17 16:19
    842
  • MapReduce-求最高温度

    学习hadoop以及工作快两年了,刚开始自学的时候,看了很多的视频、文档什么的,也没注意总结过,拿着能用就行,但学的东西越多,越觉得乱,正好趁最近工作不忙,想写一点Mapreduce的程序,第一为了给...

    2015-12-17 10:35
    975
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部