Hive优化整理

最新推荐文章于 2024-04-02 17:47:32 发布

takeuheart

最新推荐文章于 2024-04-02 17:47:32 发布

阅读量330

点赞数

分类专栏： Hive 文章标签： hive

本文链接：https://blog.csdn.net/takeuherat/article/details/107554587

版权

本文详细介绍了Hive的优化方法，包括压缩格式选择，如ORC与Parquet，注意压缩格式的使用限制；Hive函数的使用，强调内置与自定义函数；优化策略涉及合理设置map和reduce任务数，解决小文件问题，SQL层面的优化如列裁剪、分区裁剪、JOIN优化等，以及引擎选择、向量化查询和成本基础优化等。

摘要由CSDN通过智能技术生成

Hive优化整理

压缩格式

常见的压缩格式有Sequence File、RC、ORC、Parquet。生产环境中hive一般用orc，spark一般用parquet，snappy配合parquet性能最高。

注意点

1）orc格式的表不能通过load data导入数据

2）Sequence 可分割，与hadoop文件兼容

3）ORC快速存取，列压缩

Hive函数

内置函数

1.NVL( value，default_value) ，给值为 NULL 的数据赋值
2.CASE WHEN THEN ELSE END
CASE a WHEN b THEN c [WHEN d THEN e]* [ELSE f] END
说明：如果 a 等于 b，那么返回 c；如果 a 等于 d，那么返回 e；否则返回 f
3.CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入
字符串;
4.CONCAT_WS(separator, str1, str2,…)：它是一个特殊形式的 CONCAT()。第一个参数剩
	余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返
	回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符
	将被加到被连接的字符串之间;
5.COLLECT_SET(col)：函数只接受基本数据类型，它的主要作用是将某字段的值进行去
	重汇总，产生 array 类型字段。
6.EXPLODE(col)：将 hive 一列中复杂的 array 或者 map 结构拆分成多行。
7.LATERAL VIEW
用法：LATERAL VIEW udtf(expression) tableAlias AS columnAlias
解释：用于和 split, explode 等 UDTF 一起使用，它能够将一列数据拆成多行数据，在此
	基础上可以对拆分后的数据进行聚合。
8.OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而
变化。
	CURRENT ROW：当前行
	n PRECEDING：往前 n 行数据
	n FOLLOWING：往后 n 行数据
	UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点， UNBOUNDED
	FOLLOWING 表示到后面的终点
	LAG(col,n,default_val)：往前第 n 行数据
	LEAD(col,n, default_val)：往后第 n 行数据

9.RANK() 排序相同时会重复，总数不会变
10.DENSE_RANK() 排序相同时会重复，总数会减少
11.ROW_NUMBER() 会根据顺序计算
12.NTILE(n)：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从 1 开始，
对于每一行，NTILE 返回此行所属的组的编号。注意：n 必须为 int 类型。用于将分组
数据按照顺序切分成 n 片，返回当前切片值，如果切片不均匀，默认增加第一个切片的
分布。