数据仓库-Hive(三)

5.Hive Shell参数

5.1 Hive命令行

语法结构

bin/hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S]

说明:

1、 -i 从文件初始化HQL。

2、 -e从命令行执行指定的HQL

3、 -f 执行HQL脚本

4、 -v 输出执行的HQL语句到控制台

5、 -p <port> connect to Hive Server on port number

6、 -hiveconf x=y Use this to set hive/hadoop configuration variables. 设置hive运行时候的参数配置

 

5.2 Hive参数配置方式

开发Hive应用时,不可避免地需要设定Hive的参数。设定Hive的参数可以调优HQL代码的执行效率,或帮助定位问题。

对于一般参数,有以下三种设定方式:

  • 配置文件

  • 命令行参数

  • 参数声明

配置文件:Hive的配置文件包括

另外,Hive也会读入Hadoop的配置,因为Hive是作为Hadoop的客户端启动的,Hive的配置会覆盖Hadoop的配置。

配置文件的设定对本机启动的所有Hive进程都有效。

 

命令行参数:启动Hive(客户端或Server方式)时,可以在命令行添加-hiveconf param=value来设定参数,例如:

bin/hive -hiveconf hive.root.logger=INFO,console

这一设定对本次启动的Session(对于Server方式启动,则是所有请求的Sessions)有效。

 

参数声明:可以在HQL中使用SET关键字设定参数,例如:

set mapred.reduce.tasks=100;

这一设定的作用域也是session级的。

上述三种设定方式的优先级依次递增。即参数声明覆盖命令行参数,命令行参数覆盖配置文件设定。注意某些系统级的参数,例如log4j相关的设定,必须用前两种方式设定,因为那些参数的读取在Session建立以前已经完成了。

参数声明 > 命令行参数 > 配置文件参数(hive)

 

 

6. Hive 函数

6.1. 内置函数

内容较多,见《Hive官方文档》

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
  1. 查看系统自带的函数

    hive> show functions;
  2. 显示自带的函数的用法

    hive> desc function upper;
  3. 详细显示自带的函数的用法

    hive> desc function extended upper;

4:常用内置函数

#字符串连接函数: concat 
  select concat('abc','def’,'gh');
#带分隔符字符串连接函数: concat_ws 
  select concat_ws(',','abc','def','gh');
#cast类型转换
  select cast(1.5 as int);
#get_json_object(json 解析函数,用来处理json,必须是json格式)
   select get_json_object('{"name":"jack","age":"20"}','$.name');
#URL解析函数
   select parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'HOST');
#explode:把map集合中每个键值对或数组中的每个元素都单独生成一行的形式
                

 

6.2. 自定义函数

6.2.1 概述:

  1. Hive 自带了一些函数,比如:max/min等,当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF).

  2. 根据用户自定义函数类别分为以下三种:

    1. UDF(User-Defined-Function)

      • 一进一出

    2. UDAF(User-Defined Aggregation Function)

      • 聚集函数,多进一出

      • 类似于:count/max/min

    3. UDTF(User-Defined Table-Generating Functions)

      • 一进多出

      • lateral view explore()

  3. 编程步骤:

    1. 继承org.apache.hadoop.hive.ql.UDF

    2. 需要实现evaluate函数;evaluate函数支持重载;

  4. 注意事项

    1. UDF必须要有返回类型,可以返回null,但是返回类型不能为void;

    2. UDF中常用Text/LongWritable等类型,不推荐使用java类型;

      7.hive的数据压缩

      在实际工作当中,hive当中处理的数据,一般都需要经过压缩,前期我们在学习hadoop的时候,已经配置过hadoop的压缩,我们这里的hive也是一样的可以使用压缩来节省我们的MR处理的网络带宽

      7.1 MR支持的压缩编码

      压缩格式工具算法文件扩展名是否可切分
      DEFAULTDEFAULT.deflate
      GzipgzipDEFAULT.gz
      bzip2bzip2bzip2.bz2
      LZOlzopLZO.lzo
      LZ4LZ4.lz4
      SnappySnappy.snappy

      为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示

      压缩格式对应的编码/解码器
      DEFLATEorg.apache.hadoop.io.compress.DefaultCodec
      gziporg.apache.hadoop.io.compress.GzipCodec
      bzip2org.apache.hadoop.io.compress.BZip2Codec
      LZOcom.hadoop.compression.lzo.LzopCodec
      LZ4org.apache.hadoop.io.compress.Lz4Codec
      Snappyorg.apache.hadoop.io.compress.SnappyCodec

      压缩性能的比较

      压缩算法原始文件大小压缩文件大小压缩速度解压速度
      gzip8.3GB1.8GB17.5MB/s58MB/s
      bzip28.3GB1.1GB2.4MB/s9.5MB/s
      LZO8.3GB2.9GB49.3MB/s74.6MB/s

      http://google.github.io/snappy/

      On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more.

      7.2 压缩配置参数

      要在Hadoop中启用压缩,可以配置如下参数(mapred-site.xml文件中):

      参数默认值阶段建议
      io.compression.codecs (在core-site.xml中配置)org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.Lz4Codec输入压缩Hadoop使用文件扩展名判断是否支持某种编解码器
      mapreduce.map.output.compressfalsemapper输出这个参数设为true启用压缩
      mapreduce.map.output.compress.codecorg.apache.hadoop.io.compress.DefaultCodecmapper输出使用LZO、LZ4或snappy编解码器在此阶段压缩数据
      mapreduce.output.fileoutputformat.compressfalsereducer输出这个参数设为true启用压缩
      mapreduce.output.fileoutputformat.compress.codecorg.apache.hadoop.io.compress. DefaultCodecreducer输出使用标准工具或者编解码器,如gzip和bzip2
      mapreduce.output.fileoutputformat.compress.typeRECORDreducer输出SequenceFile输出使用的压缩类型:NONE和BLOCK

       

      7.3 开启Map输出阶段压缩

      开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。具体配置如下:

      案例实操:

      1)开启hive中间传输数据压缩功能

      set hive.exec.compress.intermediate=true;

      2)开启mapreduce中map输出压缩功能

      set mapreduce.map.output.compress=true;

      3)设置mapreduce中map输出数据的压缩方式

      set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec;

      4)执行查询语句

      select count(1) from score;

      7.4 开启Reduce输出阶段压缩

      当Hive将输出写入到表中时,输出内容同样可以进行压缩。属性hive.exec.compress.output控制着这个功能。用户可能需要保持默认设置文件中的默认值false,这样默认的输出就是非压缩的纯文本文件了。用户可以通过在查询语句或执行脚本中设置这个值为true,来开启输出结果压缩功能。

      案例实操

      1)开启hive最终输出数据压缩功能

      set hive.exec.compress.output=true;

      2)开启mapreduce最终输出数据压缩

      set mapreduce.output.fileoutputformat.compress=true;

      3)设置mapreduce最终数据输出压缩方式

       set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;

      4)设置mapreduce最终数据输出压缩为块压缩

      set mapreduce.output.fileoutputformat.compress.type=BLOCK;

      5)测试一下输出结果是否是压缩文件

      insert overwrite local directory '/export/servers/snappy' select * from score distribute by s_id sort by s_id desc;

      8.hive的数据存储格式

      Hive支持的存储数的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。

      8.1 列式存储和行式存储

      上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。

      行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。

      列存储的特点: 因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。

      TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的;

      ORC和PARQUET是基于列式存储的。

      8.2 常用数据存储格式

      TEXTFILE格式

      默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用.

      ORC格式

      Orc (Optimized Row Columnar)是hive 0.11版里引入的新的存储格式。

      可以看到每个Orc文件由1个或多个stripe组成,每个stripe250MB大小,每个Stripe里有三部分组成,分别是Index Data,Row Data,Stripe Footer:

    3. indexData:某些列的索引数据

    4. rowData :真正的数据存储

    5. StripFooter:stripe的元数据信息

    6. set mapred.map.tasks.speculative.execution=true
      set mapred.reduce.tasks.speculative.execution=true
      set hive.mapred.reduce.tasks.speculative.execution=true;

      关于调优这些推测执行变量,还很难给一个具体的建议。如果用户对于运行时的偏差非常敏感的话,那么可以将这些功能关闭掉。如果用户因为输入数据量很大而需要执行长时间的map或者Reduce task的话,那么启动推测执行造成的浪费是非常巨大大。

      PARQUET格式

      Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,

      Parquet文件是以二进制方式存储的,所以是不可以直接读取的,文件中包括该文件的数据和元数据,因此Parquet格式文件是自解析的。

      通常情况下,在存储Parquet数据的时候会按照Block大小设置行组的大小,由于一般情况下每一个Mapper任务处理数据的最小单位是一个Block,这样可以把每一个行组由一个Mapper任务处理,增大任务执行并行度。Parquet文件的格式如下图所示。

       

      9. 文件存储格式与数据压缩结合

      9.1 压缩比和查询速度对比

      1)TextFile

      (1)创建表,存储数据格式为TEXTFILE

      create table log_text (
      track_time string,
      url string,
      session_id string,
      referer string,
      ip string,
      end_user_id string,
      city_id string
      )
      ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
      STORED AS TEXTFILE ;

      (2)向表中加载数据

      load data local inpath '/export/servers/hivedatas/log.data' into table log_text ;

      (3)查看表中数据大小

      dfs -du -h /user/hive/warehouse/myhive.db/log_text;

       

      2)ORC

      (1)创建表,存储数据格式为ORC

      create table log_orc(
      track_time string,
      url string,
      session_id string,
      referer string,
      ip string,
      end_user_id string,
      city_id string
      )
      ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
      STORED AS orc ;

      (2)向表中加载数据

      insert into table log_orc select * from log_text ;

      (3)查看表中数据大小

      dfs -du -h /user/hive/warehouse/myhive.db/log_orc;

       

      3)Parquet

      (1)创建表,存储数据格式为parquet

      create table log_parquet(
      track_time string,
      url string,
      session_id string,
      referer string,
      ip string,
      end_user_id string,
      city_id string
      )
      ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
      STORED AS PARQUET ;

      (2)向表中加载数据

      insert into table log_parquet select * from log_text ;

      (3)查看表中数据大小

      dfs -du -h /user/hive/warehouse/myhive.db/log_parquet;

      存储文件的压缩比总结:

      ORC > Parquet > textFile

       

      4)存储文件的查询速度测试:

      1)TextFile

      hive (default)> select count(*) from log_text;

      Time taken: 21.54 seconds, Fetched: 1 row(s)

      2)ORC

      hive (default)> select count(*) from log_orc;

      Time taken: 20.867 seconds, Fetched: 1 row(s)

      3)Parquet

      hive (default)> select count(*) from log_parquet;

      Time taken: 22.922 seconds, Fetched: 1 row(s)

       

      存储文件的查询速度总结:

      ORC > TextFile > Parquet

       

      9.2 ORC存储指定压缩方式

      官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

      ORC存储方式的压缩:

      KeyDefaultNotes
      orc.compressZLIBhigh level compression (one of NONE, ZLIB, SNAPPY)
      orc.compress.size262,144number of bytes in each compression chunk
      orc.stripe.size67,108,864number of bytes in each stripe
      orc.row.index.stride10,000number of rows between index entries (must be >= 1000)
      orc.create.indextruewhether to create row indexes
      orc.bloom.filter.columns""comma separated list of column names for which bloom filter should be created
      orc.bloom.filter.fpp0.05false positive probability for bloom filter (must >0.0 and <1.0)

      1)创建一个非压缩的的ORC存储方式

      (1)建表语句

      create table log_orc_none(
      track_time string,
      url string,
      session_id string,
      referer string,
      ip string,
      end_user_id string,
      city_id string
      )
      ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
      STORED AS orc tblproperties ("orc.compress"="NONE");

      (2)插入数据

      insert into table log_orc_none select * from log_text ;

      (3)查看插入后数据

      dfs -du -h /user/hive/warehouse/myhive.db/log_orc_none;

       

      2)创建一个SNAPPY压缩的ORC存储方式

      (1)建表语句

      create table log_orc_snappy(
      track_time string,
      url string,
      session_id string,
      referer string,
      ip string,
      end_user_id string,
      city_id string
      )
      ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
      STORED AS orc tblproperties ("orc.compress"="SNAPPY");

      (2)插入数据

      insert into table log_orc_snappy select * from log_text ;

      (3)查看插入后数据

      dfs -du -h /user/hive/warehouse/myhive.db/log_orc_snappy ;

      9.3 存储方式和压缩总结:

      在实际的项目开发当中,hive表的数据存储格式一般选择:orc或parquet。压缩方式一般选择snappy

       

      10.hive调优

      10.1 Fetch抓取

      Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM score;在这种情况下,Hive可以简单地读取score对应的存储目录下的文件,然后输出查询结果到控制台。通过设置hive.fetch.task.conversion参数,可以控制查询语句是否走MapReduce.

      案例实操:

      1)把hive.fetch.task.conversion设置成none,然后执行查询语句,都会执行mapreduce程序。

      set hive.fetch.task.conversion=none;
      ​
      select * from score;
      select s_score from score;
      select s_score from score limit 3;

      2)把hive.fetch.task.conversion设置成more,然后执行查询语句,如下查询方式都不会执行mapreduce程序。

      set hive.fetch.task.conversion=more;
      ​
      select * from score;
      select s_score from score;
      select s_score from score limit 3;

      10.2 本地模式

      大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务时消耗可能会比实际job的执行时间要多的多。对于大多数这种情况,Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集,执行时间可以明显被缩短。

      用户可以通过设置hive.exec.mode.local.auto的值为true,来让Hive在适当的时候自动启动这个优化。

      案例实操:

      1)开启本地模式,并执行查询语句

      set hive.exec.mode.local.auto=true; 
      select * from score cluster by s_id;

      2)关闭本地模式,并执行查询语句

      set hive.exec.mode.local.auto=false; 
      select * from score cluster by s_id;

      10.3 MapJoin

      如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会在Reduce阶段完成join,容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理。

      1)开启MapJoin参数设置:

      (1)设置自动选择Mapjoin

      set hive.auto.convert.join = true; 

      (2)大表小表的阈值设置(默认25M以下认为是小表):

      set hive.mapjoin.smalltable.filesize=25123456;

       

      10.4 Group By

      默认情况下,Map阶段同一Key数据分发给一个reduce,当一个key数据过大时就倾斜了。并不是所有的聚合操作都需要在Reduce端完成,很多聚合操作都可以先在Map端进行部分聚合,最后在Reduce端得出最终结果。

      开启Map端聚合参数设置

      (1)是否在Map端进行聚合,默认为True

      set hive.map.aggr = true;

      (2)在Map端进行聚合操作的条目数目

       set hive.groupby.mapaggr.checkinterval = 100000;

      (3)有数据倾斜的时候进行负载均衡(默认是false)

        set hive.groupby.skewindata = true;

      当选项设定为 true,生成的查询计划会有两个MR Job。

      第一个MR Job中,Map的输出结果会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;

      第二个MR Job再根据预处理的数据结果按照Group By Key分布到Reduce中(这个过程可以保证相同的Group By Key被分布到同一个Reduce中),最后完成最终的聚合操作。

      10.5 Count(distinct)

      数据量小的时候无所谓,数据量大的情况下,由于COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换:

      select count(distinct s_id) from score;
      select count(s_id) from (select id from score group by s_id) a;

      虽然会多用一个Job来完成,但在数据量大的情况下,这个绝对是值得的。

      10.6 笛卡尔积

      尽量避免笛卡尔积,即避免join的时候不加on条件,或者无效的on条件,Hive只能使用1个reducer来完成笛卡尔积。

      10.7 动态分区调整

      往hive分区表中插入数据时,hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。使用Hive的动态分区,需要进行相应的配置。

      Hive的动态分区是以第一个表的分区规则,来对应第二个表的分区规则,将第一个表的所有分区,全部拷贝到第二个表中来,第二个表在加载数据的时候,不需要指定分区了,直接用第一个表的分区即可

      10.7.1 开启动态分区参数设置

      (1)开启动态分区功能(默认true,开启)

      set hive.exec.dynamic.partition=true;

      (2)设置为非严格模式(动态分区的模式,默认strict,表示必须指定至少一个分区为静态分区,nonstrict模式表示允许所有的分区字段都可以使用动态分区。)

      set hive.exec.dynamic.partition.mode=nonstrict;

      (3)在所有执行MR的节点上,最大一共可以创建多少个动态分区。

      set  hive.exec.max.dynamic.partitions=1000;

      (4)在每个执行MR的节点上,最大可以创建多少个动态分区。该参数需要根据实际的数据来设定。

      set hive.exec.max.dynamic.partitions.pernode=100

      (5)整个MR Job中,最大可以创建多少个HDFS文件。

      在linux系统当中,每个linux用户最多可以开启1024个进程,每一个进程最多可以打开2048个文件,即持有2048个文件句柄,下面这个值越大,就可以打开文件句柄越大

      set hive.exec.max.created.files=100000;

      (6)当有空分区生成时,是否抛出异常。一般不需要设置。

      set hive.error.on.empty.partition=false;

       

      10.7.2 案例操作

      需求:将ori中的数据按照时间(如:20111231234568),插入到目标表ori_partitioned的相应分区中。

      (1)准备数据原表

      create table ori_partitioned(id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string) 
      PARTITIONED BY (p_time bigint) 
      row format delimited fields terminated by '\t';
      ​
      load data local inpath '/export/servers/hivedatas/small_data' into  table ori_partitioned partition (p_time='20111230000010');
      ​
      load data local inpath '/export/servers/hivedatas/small_data' into  table ori_partitioned partition (p_time='20111230000011');

      (2)创建目标分区表

      create table ori_partitioned_target(id bigint, time bigint, uid string, keyword string, url_rank int, click_num int, click_url string) PARTITIONED BY (p_time STRING) row format delimited fields terminated by '\t'

      (3)向目标分区表加载数据

      如果按照之前介绍的往指定一个分区中Insert数据,那么这个需求很不容易实现。这时候就需要使用动态分区来实现。

      INSERT overwrite TABLE ori_partitioned_target PARTITION (p_time)
      SELECT id, time, uid, keyword, url_rank, click_num, click_url, p_time
      FROM ori_partitioned;

      注意:在SELECT子句的最后几个字段,必须对应前面PARTITION (p_time)中指定的分区字段,包括顺序。

      (4)查看分区

      show partitions ori_partitioned_target; 

       

      10.8 并行执行

      Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并行执行的,这样可能使得整个job的执行时间缩短。不过,如果有更多的阶段可以并行执行,那么job可能就越快完成。

      通过设置参数hive.exec.parallel值为true,就可以开启并发执行。不过,在共享集群中,需要注意下,如果job中并行阶段增多,那么集群利用率就会增加。

      set hive.exec.parallel = true;

      当然,得是在系统资源比较空闲的时候才有优势,否则,没资源,并行也起不来。

      10.9 严格模式

      Hive提供了一个严格模式,可以防止用户执行那些可能意向不到的不好的影响的查询。

      通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict,开启严格模式可以禁止3种类型的查询。

      set hive.mapred.mode = strict; #开启严格模式
      set hive.mapred.mode = nostrict; #开启非严格模式

      1)对于分区表,在where语句中必须含有分区字段作为过滤条件来限制范围,否则不允许执行。换句话说,就是用户不允许扫描所有分区。进行这个限制的原因是,通常分区表都拥有非常大的数据集,而且数据增加迅速。没有进行分区限制的查询可能会消耗令人不可接受的巨大资源来处理这个表。

      2)对于使用了order by语句的查询,要求必须使用limit语句。因为order by为了执行排序过程会将所有的结果数据分发到同一个Reducer中进行处理,强制要求用户增加这个LIMIT语句可以防止Reducer额外执行很长一段时间。

      3)限制笛卡尔积的查询。对关系型数据库非常了解的用户可能期望在执行JOIN查询的时候不使用ON语句而是使用where语句,这样关系数据库的执行优化器就可以高效地将WHERE语句转化成那个ON语句。不幸的是,Hive并不会执行这种优化,因此,如果表足够大,那么这个查询就会出现不可控的情况。

      10.10 JVM重用

      JVM重用是Hadoop调优参数的内容,其对Hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。

      Hadoop的默认配置通常是使用派生JVM来执行map和Reduce任务的。这时JVM的启动过程可能会造成相当大的开销,尤其是执行的job包含有成百上千task任务的情况。JVM重用可以使得JVM实例在同一个job中重新使用N次。N的值可以在Hadoop的mapred-site.xml文件中进行配置。通常在10-20之间,具体多少需要根据具体业务场景测试得出。

      我们也可以在hive当中通过

      set  mapred.job.reuse.jvm.num.tasks=10;

      这个设置来设置我们的jvm重用

      这个功能的缺点是,开启JVM重用将一直占用使用到的task插槽,以便进行重用,直到任务完成后才能释放。如果某个“不平衡的”job中有某几个reduce task执行的时间要比其他Reduce task消耗的时间多的多的话,那么保留的插槽就会一直空闲着却无法被其他的job使用,直到所有的task都结束了才会释放。

      10.11 推测执行

      在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运行速度不一致,有些任务的运行速度可能明显慢于其他任务(比如一个作业的某个任务进度只有50%,而其他所有任务已经运行完毕),则这些任务会拖慢作业的整体执行进度。为了避免这种情况发生,Hadoop采用了推测执行(Speculative Execution)机制,它根据一定的法则推测出“拖后腿”的任务,并为这样的任务启动一个备份任务,让该任务与原始任务同时处理同一份数据,并最终选用最先成功运行完成任务的计算结果作为最终结果。

      设置开启推测执行参数:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值