hive调优
一只考考拉
大数据开发工程师
展开
-
bigquey一行转多行
bigquery 一行转多行原创 2022-12-21 10:16:53 · 554 阅读 · 1 评论 -
数仓遍历 array数据类型
需要处理的字段app_comment_score数据类型:array<structscore:double,num:bigint>app的分数和次数数据展现形式select app_id,app_score_num from dws.app_comment_score_di where dt='20211031' limit 2;app_idapp_score_num1[[7.0,1],[6.0,1],[10.0,26],[null,3],[8.0,1]]原创 2021-11-01 11:21:47 · 1312 阅读 · 0 评论 -
hive窗口函数-leg()、lead() 上次下次获取
LAGLAG(col,n,DEFAULT) 用于统计窗口内往上第n行值参数1为列名,参数2为往上第n行(可选,默认为1),参数3为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)LEAD与LAG相反LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值参数1为列名,参数2为往下第n行(可选,默认为1),参数3为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL应用场景:取用户的上次登录时间,下次登陆时间select nam.原创 2020-11-25 11:06:24 · 1995 阅读 · 0 评论 -
如何设置合理的Reduce的个数
•reducer个数的设定极大影响执行效率•不指定reducer个数的情况下,Hive分配reducer个数基于以下:参数1:hive.exec.reducers.bytes.per.reducer(默认为1G) ---------------------- 每个reduce任务处理的数据量参数2:hive.exec.reducers.max(默认为999) ...原创 2019-04-08 16:17:18 · 3060 阅读 · 0 评论