《Hive性能调优实战》笔记

一直感觉Hive入门易,调优才是学习提升重点,这本书专门讲Hive调优的,主题非常好,之前的实习中Hive的使用频率挺高的,如果能通过调优提高10%的效率,带来的时间节省就很可观了。

第1章 举例感受Hive性能调优的多样性

  1. Time taken记录的是用户从提交作业到返回结果期间,用户等待的所有时间;Total MapReduce CPU Time Spent表示运行程序所占用服务器CPU资源的时间。
  2. Hive的执行计划都是预测的(非真实)。
  3. 优化硬盘IO和网络IO。
  4. 不同的数据存储格式:
  5. 这一章主要是从改写SQL、调整数据块大小、调整数据存储格式、更改表设计这些方面展示Hive性能调优前后的耗时对比。

第2章 Hive问题排查与调优思路

  1. Hive架设在Hadoop集群上,如果计算引擎用的是MapReduce,HiveSQL默认会解析并转化成MapReduce算子,如果是架设在Spark集群上,则会转化成Spark算子。
  2.  

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值