博客专栏  >  云计算/大数据   >  Hadoop源码解读与原理剖析

Hadoop源码解读与原理剖析

通过对Hadoop进行测试和实验,然后结合对相关代码的分析和总结,最后得出Hadoop各个配置参数发挥作用的实现及其深层次原理。本专栏目前基于Hadoop2.6.0版本展开。

关注
43 已关注
10篇博文
  • 记Hadoop2.5.0线上mapreduce任务执行map任务划分的一次问题解决

    近日在线上发现有些mapreduce作业的执行时间很长,我们需要解决这个问题。输入文件的大小是5G,采用了lzo压缩,整个集群的默认block大小是128M。本文将详细描述这次线上问题的排查过程。

    2016-07-14 13:31
    11079
  • Hadoop2.6.0运行mapreduce之推断(speculative)执行(下)

    在《Hadoop2.6.0运行mapreduce之推断(speculative)执行(一)》一文中对推断执行技术的背景进行了介绍,并且在Hadoop集群上做了一些测试以验证mapreduce框架的推断...

    2016-05-19 10:00
    8704
  • Hadoop2.6.0运行mapreduce之推断(speculative)执行(上)

    当一个应用向YARN集群提交作业后,此作业的多个任务由于负载不均衡、资源分布不均等原因都会导致各个任务运行完成的时间不一致,甚至会出现一个任务明显慢于同一作业的其它任务的情况。如果对这种情况不加优化,...

    2016-05-12 14:39
    19319
  • Hadoop2.6.0运行mapreduce之Uber模式验证

    在有些情况下,运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大,如果此时的任务分片很多,那么为每个map任务或者reduce任务频繁创建Container,势必会增加Hado...

    2016-05-05 14:55
    20750
  • Hadoop2.6.0中YARN底层状态机实现分析

    Hadoop2.x.x版本的底层实现中作了很多优化:用状态机对各种对象生命周期和状态转移进行管理;采用事件机制避免线程同步与阻塞;采用Protocol Buffers优化RPC性能;采用Apache ...

    2016-04-29 08:30
    21089
  • Hadoop2.6.0的事件分类与实现

    说实在的,在阅读Hadoop YARN的源码之前,我对于java枚举的使用相形见绌。YARN中实现的事件在可读性、可维护性、可扩展性方面的工作都值得借鉴。

    2016-04-26 10:45
    11991
  • Hadoop2.6.0的FileInputFormat的任务切分原理分析(即如何控制FileInputFormat的map任务数量)

    前言 首先确保已经搭建好Hadoop集群环境,可以参考《Linux下Hadoop集群环境的搭建》一文的内容。我在测试mapreduce任务时,发现相比于使用Job.setNumReduceTasks(...

    2016-04-12 13:42
    10436
  • Hadoop2.6.0配置参数查看小工具

    使用Hadoop进行离线分析或者数据挖掘的工程师,经常会需要对Hadoop集群或者mapreduce作业进行性能调优。性能调优的前提是需要能准确知道目前针对Hadoop集群或者mapreduce作业配...

    2016-04-21 15:31
    15174
  • Hadoop2.6.0子项目hadoop-mapreduce-examples的简单介绍

    学习Hadoop的同学们,一定知道如果运行Hadoop自带的各种例子。hadoop-mapreduce-examples项目中还提供了这些例子,本文就其中例子的执行方式进行分析。看看它能否让我们学习m...

    2016-04-18 11:41
    10326
  • Linux下Hadoop2.6.0集群环境的搭建

    本文旨在提供最基本的,可以用于在生产环境进行Hadoop、HDFS、Hbase分布式环境的搭建,对自己是个总结和整理,也能方便新人学习使用。

    2016-04-11 11:50
    17237
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部