1.在Hive中可以使用正则表达式
set hive.support.quoted.identifiers=None;
select a.pin, `(pin)?+.+` from Table
2.输出表数据时,显示列名
set hive.cli.print.header=true;
3.排序优化
order by全局排序,一个reduce实现,不能并行故效率偏低;
sort by部分有序,配合distribute by使用;
cluster by col1 == distribute by col1 sort by col1,但不能指定排序规则;
4.join优化
多表join的key值统一则可以归为一个reduce;
先过滤后join;
小表在前读入内存,大表在后;
使用left semi join 代替in功能,效率更高;
小表join大表时数据倾斜优化:
select t1.a,t1.b from table t1 join table2 t2 on ( t1.a=t2.a)
select /*+ mapjoin(t1)*/ t1.a,t1.b from table t1 join table2 t2 on ( t1.a=t2.a)
5.分区插入
静态插入:需要指定插入的分区dt,name的值;
insert overwrite table test partition (dt='2018-10-17', name='a')
select col1, col2 from data_table where dt='2018-10-17'