Hadoop中HDFS、MapReduce的运行原理

最新推荐文章于 2021-09-28 10:38:55 发布

发芽的土豆子

最新推荐文章于 2021-09-28 10:38:55 发布

阅读量648

点赞数

本文链接：https://blog.csdn.net/u011831754/article/details/53473819

版权

HDFS的运行过程

概念：
namenode：负责记录数据块的分布情况– 数据元数据信息
datanode:负责实际存储数据块
block：是Hadoop最小存储数据单位默认 128M
secondarynamenode: 辅助namenode完成fsimage管理或者优化

当用户将文件上传到HDFS中时，首先会将文件信息放入namenode进行处理，hadoop的储存文件以块为单位，会把每个文件会按照块来进行拆分，每个块的大小为128M（也正是因此hadoop不适合用来储存小文件，因为每个小文件都会独占一个block），所存储的信息内容包括每个块所对应的源文件内容，分储存至哪个DataNode，以及有几个副本（信息被称为fsimage）。同时被拆分的文件块会随机存入数个DataNode中，实现数据的存储

Namenode在第一次启动时会将fsimage镜像文件加载到内存（在此期间会进入安全模式：对外读写都是不可用的）。文件变动时直接对内存进行修改，并将修改信息存入edits日志。Edit记录了对内存的修改。Secondaryamenode会定时的从namenode中下载edits和fsimage，时，namenode中会产生一个新的edits_progress，存储修改信息。Secondnamenode中会对下载得到的数据并对其进行合并，得到了一个新的fsimage。之后fsimage将上传至namenode中形成fsimage_chk。fsimage_cke和edits_progress组合成为最新的数据文件。

HadoopMapReduce运行原理

MapTask阶段

①进入环状缓冲区

Inputsplit经过切片计算阶段处理后（检查目录是否为空–>上传jar包–>计算切片将切片信息写入Hdfs）进入buffer in memory（默认每一个MapTask都有一个100M的环状缓冲区，用于储存Map输出的key-value。每个缓冲区都有一个缓冲阀值0.8，MapTask会有一个SpillThread的线程，负责监控缓冲区的变化，一旦达到缓冲区80%的占用，该线程将这80%的内容flush到磁盘，这个过程称为溢写。每一次溢写都会产生一个溢写文件SpillFile进入本地磁盘）
溢写：缓冲区–>分区–>排序–>flushe磁盘–>形成溢写文件

②分区

每一个溢写文件都会根据设定的代码进行分区，默认分区依据是对key进行hash计算，取膜并根据结果进行分区。源码如下：
可以通过自己写类继承Patitoner（class

//设置分区
job.setPartitionerClass(CutomPartitioner.class);
job.setNumReduceTasks(3);//part-r-00000

//自定义分区依据
public class CutomPartitioner extends Partitioner<Text, IntWritable> {
    @Override
    public int getPartition(Text key, IntWritable value, int numPartitions) {
        // TODO Auto-generated method stub
        return 3;
    }
}

③排序

局部有序（先分区再排序）

排序规则
依据Writable类实现WritableComparable 中的compareTo实现，代码如下：

public int compareTo(CityWritable o) {
    // TODO Auto-generated method stub
    System.out.println("=======compareTo=======");
    if(this.year.compareTo(o.getYear())!=0){
        return this.year.compareTo(o.getYear());
    }else if(this.tempreture.compareTo(o.getTempreture())!=0){
        return this.tempreture.compareTo(o.getTempreture());
    }else{
        return this.cityName.compareTo(o.getCityName());    
    }
    return 0;
}

自己写一个Comparator继承WritableComparator并覆盖里面的compareTo方法
（注意要写构造方法）通过设置外部比较器应用对应排序类

//设置外部比较器
job.setSortComparatorClass(YearComparator.class);
public class YearComparator extends WritableComparator {
    public YearComparator(){
        super(CityWritable.class,true);
    }

    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        // TODO Auto-generated method stub
        CityWritable c1=(CityWritable) a;
        CityWritable c2=(CityWritable) b;
        System.out.println("=======compare=======");
        if(c1.getTempreture().compareTo(c2.getTempreture())!=0){
            return c1.getTempreture().compareTo(c2.getTempreture());
        }else if(c1.getYear().compareTo(c2.getYear())!=0){
            return c1.getYear().compareTo(c2.getYear());
        }else{
            return c1.getCityName().compareTo(c2.getCityName());    
        }   
    }
}

全局有序（分区有序即可）

//设置分区
job.setPartitionerClass(YearPartitioner.class);

public class YearPartitioner extends Partitioner<CityWritable, NullWritable> {
    @Override
    public int getPartition(CityWritable key, NullWritable value,
            int numPartitions) {
        // TODO Auto-generated method stub
        return key.getYear().get()%numPartitions;
    }
}

辅助排序SecondarySort（在reduce端排序）分组

//设置分组依据
job.setGroupingComparatorClass(YearGroupComparator.class);

public class YearGroupComparator extends WritableComparator {
    public YearGroupComparator(){
        super(CityWritable.class,true);
    }
    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        // TODO Auto-generated method stub
        CityWritable c1=(CityWritable) a;
        CityWritable c2=(CityWritable) b;
        return c1.getYear().compareTo(c2.getYear());
    }   
}

④combiner

Combinner:使Map端输出结果更加紧凑.使部分数据在Map端提前执行Reduce的逻辑.设置Combinner必须要求Map端的输出吻合Reducer端输出.
优点:减少key的排序(Map端/Shuflle阶段 key数量) / 减少Shuffle的数据量节省网络带宽
运行时机:产生溢写/溢写文件合并

设置combiner方法

job.setCombinerClass(WordReducer.class);

⑤压缩

//设置输出结果压缩
TextOutputFormat.setCompressOutput(job, true);
TextOutputFormat.setOutputCompressorClass(job, GzipCodec.class);

//开启Map压缩 减少shuffle过程的网络带宽占用(只能在真实环境测试)
conf.setBoolean("mapreduce.map.output.compress", true);
conf.setClass("mapreduce.map.output.compress.codec",
GzipCodec.class, CompressionCodec.class);