一直感觉Hive入门易,调优才是学习提升重点,这本书专门讲Hive调优的,主题非常好,之前的实习中Hive的使用频率挺高的,如果能通过调优提高10%的效率,带来的时间节省就很可观了。
第1章 举例感受Hive性能调优的多样性
- Time taken记录的是用户从提交作业到返回结果期间,用户等待的所有时间;Total MapReduce CPU Time Spent表示运行程序所占用服务器CPU资源的时间。
- Hive的执行计划都是预测的(非真实)。
- 优化硬盘IO和网络IO。
- 不同的数据存储格式:
- 这一章主要是从改写SQL、调整数据块大小、调整数据存储格式、更改表设计这些方面展示Hive性能调优前后的耗时对比。
第2章 Hive问题排查与调优思路
- Hive架设在Hadoop集群上,如果计算引擎用的是MapReduce,HiveSQL默认会解析并转化成MapReduce算子,如果是架设在Spark集群上,则会转化成Spark算子。