hive调优

hive调优

explain select count(*) from table_name;

explain extended select count(*) from table_name;

核心思想

  1. 把hive sql当作mapreduce程序去优化

  2. 以下sql 不会转为Mapreduce来执行 select 及查询本表字段,where仅对本表字段条件过滤

hive对某些情况的查询不需要使用map reduce

1.抓取策略 set hive.fetch.task.conversion=none/more;

默认值为more;设为none后,单表查询时mapreduce任务;

本地模式快的原因

2. 本地执行

  1. set hive.exec.mode.local.auto=true;
  2. hive.exec.mode.local.auto.inputbytes.max=128m;
  3. 超过最大值,依然时集群模式;

3. 并行执行

  1. set hive.exec.parrallel=true
  2. hive.exec.parallel.thread.number

4. 严格模式

  1. 严格模式下,指定了分区表,查询必须使用分区
  2. 严格模式的order by 必须使用limit,会导致数据倾斜
  3. 限制笛卡尔积的查询

5. 排序

  1. order by 对于查询结果进行全排序,只允许一个reduce处理,数据量大时,慎用,必须结果limit使用
  2. sort by 对于单个reduce的数据进行排序;
  3. distribute by 分区排序,经常和sort by结合使用
  4. cluster by 相当于 distribute by +sort by
    1. 不能通过asc ,desc的方式指定排序规则

6. Join优化

  1. Map join 在map端完成join;

    1. sql方式 select /*+ MAPJOIN(small table)*/,bigtable.value from smalltable join bigtable on smalltable.v = bigtable.v;

    2. 开启自动mapjoin

      1. set hive.auto.convert.join=true;

        1. 自动对左边的表进行统计,如果是小表就加入内存,即对小表使用map join;
      2. hive.mapjoin.smalltable.filesize

        [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9AULnLI6-1616810889480)(C:\Users\xiaoq\AppData\Roaming\Typora\typora-user-images\1616505290563.png)]

      3. hive.ignore.mapjoin.hint (默认true) 默认听自动的话

  2. 大表join大表

    1. 空key过滤,分析异常key,减少key-v的数量,sql过滤异常key
    2. 空key转换,某个key为空对应的数据很多,相应的数据非异常数据,必须包含在join的结果中,key为空的字段随机赋值随机值,使数据随机均匀分配到不同reduce上
  3. Map-site聚合–Map–combine类–map端的reduce

    1. set hive.map.aggr=true;
    2. hive.groupby.mapaggr.checkinterval
      1. map端group by执行聚合时处理的多少行数据(默认100000)
    3. hive.map.aggr.hash.min.reduction
      1. 进行聚合的最小比例,预先对10w条数据做聚合,若聚合之后的 数据量/10w>该配置(默认值0.5),则不会聚合(默认值0.5)
      2. hive.map.aggr.hash.percentmemory
        1. map端聚合使用的内存最大值
      3. hive.groupby.skewindata
        1. 是否对groupby产生的数据倾斜做优化,默认false;

9. 合并小文件

  1. 文件数目小,文件存储造成压力,给hdfs造成压力,影响效率

  2. 设置合并属性

    1. 合并map输出文件:hive.merge.mapfiles=true ( 默认true)
    2. 合并reduce输出文件:hive.merge.mapredfiles=true (默认false)
    3. 合并文件大小:hive.merge.size.per.task=256*1000*1000 (超过就不merge)
  3. 去重统计

    1. 数据量小的时候无所谓,数据量大的情况下,由于count distinct操作需要用一个reduce task来完成,这一个reduce需要处理的数据量太大,就会导致job很难完成,一般count distinct 使用先group by 在count的方式替换
  4. 控制hive中map以及reduce的数量

    task -->node–>rack

    1. Map数量相关的参数
      1. mapred.max.split.size —split的最大值,及每个map处理文件的最大值
      2. mapred.min.split.size.per.node —一个节点上split的最小值
      3. mapred.min.split.size.per.rack —一个机架上split的最小值
    2. Reduce数量相关的参数
      1. mapred,reduce.tasks —强制reduce任务的数量
      2. hive.exec.reducers.bytes.reducer —每个reduce任务处理的数据量
      3. hive.exec.reducers.max —每个任务最大的reduce数
  5. JVM重用

    1. 适用场景
      1. 小文件个数过多
      2. task个数过多
    2. set mapred.job.reuse.jvm.num.task=n
    3. 缺点:设置开启后,task插槽会一直占用资源,不论是否有task运行,直到所有的task即整个job全部执行完成时,才会释放所有的task插槽资源;
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧校园整体解决方案是响应国家教育信息化政策,结合教育改革和技术创新的产物。该方案以物联网、大数据、人工智能和移动互联技术为基础,旨在打造一个安全、高效、互动且环保的教育环境。方案强调从数字化校园向智慧校园的转变,通过自动数据采集、智能分析和按需服务,实现校园业务的智能化管理。 方案的总体设计原则包括应用至上、分层设计和互联互通,确保系统能够满足不同用户角色的需求,并实现数据和资源的整合与共享。框架设计涵盖了校园安全、管理、教学、环境等多个方面,构建了一个全面的校园应用生态系统。这包括智慧安全系统、校园身份识别、智能排课及选课系统、智慧学习系统、精品录播教室方案等,以支持个性化学习和教学评估。 建设内容突出了智慧安全和智慧管理的重要性。智慧安全管理通过分布式录播系统和紧急预案一键启动功能,增强校园安全预警和事件响应能力。智慧管理系统则利用物联网技术,实现人员和设备的智能管理,提高校园运营效率。 智慧教学部分,方案提供了智慧学习系统和精品录播教室方案,支持专业级学习硬件和智能化网络管理,促进个性化学习和教学资源的高效利用。同时,教学质量评估中心和资源应用平台的建设,旨在提升教学评估的科学性和教育资源的共享性。 智慧环境建设则侧重于基于物联网的设备管理,通过智慧教室管理系统实现教室环境的智能控制和能效管理,打造绿色、节能的校园环境。电子班牌和校园信息发布系统的建设,将作为智慧校园的核心和入口,提供教务、一卡通、图书馆等系统的集成信息。 总体而言,智慧校园整体解决方案通过集成先进技术,不仅提升了校园的信息化水平,而且优化了教学和管理流程,为学生、教师和家长提供了更加便捷、个性化的教育体验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值