hive
文章平均质量分 78
莫叫石榴姐
云淡风轻一轮江月明
展开
-
hive msck repair table 报错return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
hive msck repair table 报错return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask转载 2022-06-23 11:54:34 · 2713 阅读 · 1 评论 -
SQL一天一个小技巧:如何通过HQL解析JSON
在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。Hive自带的json解析函数1. get_json_object 语法:get_json_object(json_string, '$.key') 说明:解析json的字符串json_string,返回path指定的内容。如果输入的json字符串无效,那么返回NUL转载 2021-09-02 18:42:33 · 3005 阅读 · 0 评论 -
Hive sql 常见数据倾斜(类型不匹配、复杂join条件)的分析解决
本篇以hive sql解析器来讨论问题,spark sql 的处理方法类似,大家可自行测试。本篇不分析各种会造成数据倾斜的原因,数据倾斜形成的原因也只是简单提及。本篇主要分析在sql中进行join操作时,会造成数据倾斜的常见两大原因,以及解决方法。我认为这两种情况,在工作中出现的几率较高,所以单独拿出来讨论。数据倾斜造成的原因(懂的可以跳过不看):这个问题简单来说,就是分布式处理中,每个节点处理的数据量差距较大,而导致单节点负担过重,处理时间过长,而拖慢整个作业的执行时间。在hive中,常见的处转载 2021-06-10 16:37:18 · 1185 阅读 · 1 评论 -
SQL 窗口函数的优化和执行
窗口函数(Window Function)是 SQL2003 标准中定义的一项新特性,并在 SQL2011、SQL2016 中又加以完善,添加了若干处拓展。窗口函数不同于我们熟悉的普通函数和聚合函数,它为每行数据进行一次计算:输入多行(一个窗口)、返回一个值。在报表等分析型查询中,窗口函数能优雅地表达某些需求,发挥不可替代的作用。本文首先介绍窗口函数的定义及基本语法,之后将介绍在 DBMS 和大数据系统中是如何实现高效计算窗口函数的,包括窗口函数的优化、执行以及并行执行。什么是窗口函数?窗口转载 2021-02-18 14:02:03 · 1588 阅读 · 0 评论