Hive SQL
小白的数据之旅
这个作者很懒,什么都没留下…
展开
-
HIVE 数据倾斜的原因和解决方法
转载链接:https://blog.csdn.net/qq_34941023/article/details/71189842数据倾斜在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得...转载 2018-10-12 14:00:46 · 300 阅读 · 0 评论 -
CSV格式下载出现多列
背景:CSV 默认逗号为分隔符 。问题:下载CSV格式文件时,会自动生成多列。解决方法:1) 在SQL中使用replace()Hive中使用regexp_replace()正则表达式替换函数:regexp_replace 语法:regexp_replace(string A, string B, string C) 返回值: string说明:将字符串A中的符合java正则表达式B...原创 2018-10-10 11:47:46 · 463 阅读 · 0 评论 -
hive严格模式:No partition predicate found for Alias
在hive提数时出现了如下报错:Error while compiling statement: FAILED: SemanticException [Error 10041]: No partition predicate found for Alias。这是因为hive提供了一个严格模式,可以防止用户执行那些可能产生意想不到的不好效果的查询。即某些查询在严格模式下无法执行。sample 1:...转载 2018-10-22 17:39:14 · 2918 阅读 · 0 评论 -
拉链表
前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下的...转载 2018-10-23 18:15:29 · 1637 阅读 · 0 评论 -
将多行记录合并为一条:concat_ws ,collect_set;将多个字段合并为一个:coalesce
1、多列合并为一列COALESCE(expression_1, expression_2, …,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。使用COALESCE在于大部分包含空值的表达式最终将返回空值。2、多行合并为一行分层级取数:投诉工单>通信质量>无法正常使用数据业务>无法上网/掉线&...转载 2018-12-21 10:13:30 · 4995 阅读 · 0 评论 -
CONCALESCE、concat、concat_ws用法
concalesce:只要遇到一个不为NULL,则返回值concat:CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串。如有任何一个参数为NULL ,则返回值为 NULL。concat_ws:concat(’_’,变量1,变量2,…)返回全部变量第一个参数是其它参数的分隔符。分隔符的位置放在要连接的两个字符串之间。分隔符可以是一个字符串,也可以是其它参数。...原创 2019-03-08 12:13:56 · 708 阅读 · 0 评论