数据仓库,Hive中使用 != 或 <>符号进行条件过滤时的坑

在建设数据仓库时,使用HiveHQL处理数据,尤其是进行数据汇总时,发现数据丢失问题,根源在于使用不等值符号<>处理包含NULL的数据时会过滤掉这些记录。解决方案包括在DWD层对缺失值进行处理或在查询时使用COALESCE函数避免NULL的影响。数据仓库建设强调对原始数据的保留和在DWD层进行数据清洗的重要性。
摘要由CSDN通过智能技术生成

最近在建设数据仓库,处理数据的过程中,经常反复使用hive的HQL语句,尽管HQL和SQL语言有很多相同之处,但也并不是说HQL就能通用SQL的语法。在使用过程中要尤为注意。事情经过是这样的,我在把业务系统数据同步到数仓(数据存储在Hive)中时,在数据汇总层(DWS),对数据进行汇总处理时,发现有数据丢失的问题,经过排查,发现是在使用 <> 引发的坑。

Hive 中 != 或 <> 致命陷阱

业务场景:把业务数据抽到ODS层(原始数据层)、在DWS层(数据汇总层),对多张多表中的数据进行汇总操作,目的是为了补全各表的多种维度指标(维表)。

实际操作:因为是在Hive直接使用HQL语句对多表进行Join的关联查询操作,把处理完成的数据写入到提前建好的表中。跑完SQL以后,对结果数据进行验证,发现少了数百万数据,问题极其严重(在实际开发过程中,一定要对结果进行多方面的校验),开始排查问题。

排查问题:首先是对逻辑进行排查。发现逻辑并无错误,之后分解HQL,把每个SQL过滤条件单独拿出来进行验证,发现问题。 在使用 <> 产生了坑。

问题思考:在数仓建设过程中,因为工作疏忽,忘记了对ODS原始数据层的数据进行处理。因为在把ODS原始数据层的数据同步到到DWS数据汇总层时,并没有经过DWD数据明细层的处理,导致问题出现。

注意:在数仓建设过程,因为业务数据、或日志数据、或其他来源的数据。因为数据往往是很脏乱差的,我们需要对数据进行清洗操作,也就是ETL过程。但是数据仓库有个指标很重要,就是要把原始数据原封不动的同步到ODS层,在DWD层对数据进行简单处理。比如补全数据的操作,对NULL或空值进行补值操作。

对!= 或 <>实操验证

首先,先建一张表,插入数据:

create table if not exists not_eq_temp values(1,22,'小李','男','销售')(
  id int comment 'id',
  age int comment '年龄',
  name string comment '姓名',
  sex string comment '性别',
  job string comment '工作'
)insert into table not_eq_temp values(1,22,'小李','男','销售')insert into table not_eq_temp values(2,,'小张','男','')insert into table not_eq_temp values(3,26,'小丽','女','文员')insert into table not_eq_temp values(4,22,'小花','女','行政')insert into table not_eq_temp values(5,25,'小王','男','')insert into table not_eq_temp values(6,24,'小明','男','销售')

然后,查询语句:

select id,age,name,sex,job from not_eq_temp where age <> 22 

查询结果:

|  3| 26|'小丽'|'女'|'文员'|
|  5| 25|'小王'|'男'|  ''|
|  6| 24|'小明'|'男'|'销售'|

可以看出来,id为4的这行数据,在查询过程中丢失了。因为这行数据,年龄没有采集到,为空,在使用<>时,会把为null值的也过滤掉,这显然不是我们想要的结果。

如何解决使用<>过滤 空值的问题?

方案一

这就需要用到我们前面说的补值操作。在DWD层对缺少或空值的记录进行补值处理。

具体方式:

select 
    id,
    if(age is null,floor(rand()*100+200),age) AS age,
    name,
    sex,
    job
from
    not_eq_temp

注意:因为这里age是整数,我们使用floor(rand()*100+200) 来对age进行补值操作。这样做的好处是,使用rand()随机函数,有效避免数据倾斜情况的出现。

加200的目的,是为了跟正常年龄进行区别。在后续数据使用中,当我们看到200岁(目前来说没人能活200岁)以上的目标时,就能第一时间知道,这是我们补的值,原始业务数据并没有采集到年龄。

这只是一种情况,大家可以灵活使用。字段类型是字符串或其他类型时,补充对应类型的值就行。千万注意不要补同样的值,最好是随机数。

方案二

如果我们没有进行DWD层的操作,也就是没有补值操作。我们在查询数据的时候,可以使用条件判断避免出现null值被过滤的情况。

具体方式:

select id ,age ,name ,sex ,job 
from not_eq_temp 
where coalesce(age,1) <> 22

coalesce的用法,相当于if(expr is null,expr1,expr2)。

当然还有其他很多方式,我们可以在工作中,自己尝试。但是还是建议使用第一种方式,在DWD层对脏数据进行处理,因为这是建设数据仓库过程中很严格的规范要求。数据仓库中,一般dwd层就是用来对ods层数据进行简单处理的,如果不发挥这层的作用,那就有点不合时宜了。

使用不等值!= 或<>需要注意
在使用不等值:<>比较或过滤数据时,需要注意以下多种情况。

先来看看<>语法格式:

语法: A <> B

针对所有基本类型,如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相等,则为TRUE;否则为FALSE。

注意:在关系型数据库中,通常SQL的写法中不等于也可以这样写 != 。但在hive中,当一个string类型和int类型在进行比较的时候会查不出来结果。

  • 数字和数字类型:可以用 != 比较;

  • 带引号的数字和数字类型:也可以用!= 比较;

  • 带引号的数字和带引号数字类型:还可以用 != 比较;

  • 字符串和数字类型:不可以用 != 比较;

  • 字符串和数字类型:不可以用 <> 比较;

总而言之,在使用!= 或 <>比较的时候两者的字段类型尽量保持一致。

一、关系运算: 4 1. 等值比较: = 4 2. 不等值比较: 4 3. 小于比较: < 4 4. 小于等于比较: 5 6. 大于等于比较: >= 5 7. 值判断: IS NULL 5 8. 非判断: IS NOT NULL 6 9. LIKE比较: LIKE 6 10. JAVA的LIKE操作: RLIKE 6 11. REGEXP操作: REGEXP 7 二、数学运算: 7 1. 加法操作: + 7 2. 减法操作: - 7 3. 乘法操作: * 8 4. 除法操作: / 8 5. 取余操作: % 8 6. 位与操作: & 9 7. 位操作: | 9 8. 位异操作: ^ 9 9.位取反操作: ~ 10 三、逻辑运算: 10 1. 逻辑与操作: AND 10 2. 逻辑操作: OR 10 3. 逻辑非操作: NOT 10 四、数值计算 11 1. 取整函数: round 11 2. 指定精度取整函数: round 11 3. 向下取整函数: floor 11 4. 向上取整函数: ceil 12 5. 向上取整函数: ceiling 12 6. 取随机数函数: rand 12 7. 自然指数函数: exp 13 8. 以10为底对数函数: log10 13 9. 以2为底对数函数: log2 13 10. 对数函数: log 13 11. 幂运算函数: pow 14 12. 幂运算函数: power 14 13. 开平方函数: sqrt 14 14. 二进制函数: bin 14 15. 十六进制函数: hex 15 16. 反转十六进制函数: unhex 15 17. 进制转换函数: conv 15 18. 绝对值函数: abs 16 19. 正取余函数: pmod 16 20. 正弦函数: sin 16 21. 反正弦函数: asin 16 22. 余弦函数: cos 17 23. 反余弦函数: acos 17 24. positive函数: positive 17 25. negative函数: negative 17 五、日期函数 18 1. UNIX间戳转日期函数: from_unixtime 18 2. 获取当前UNIX间戳函数: unix_timestamp 18 3. 日期转UNIX间戳函数: unix_timestamp 18 4. 指定格式日期转UNIX间戳函数: unix_timestamp 18 5. 日期间转日期函数: to_date 19 6. 日期转年函数: year 19 7. 日期转月函数: month 19 8. 日期转天函数: day 19 9. 日期转小函数: hour 20 10. 日期转分钟函数: minute 20 11. 日期转秒函数: second 20 12. 日期转周函数: weekofyear 20 13. 日期比较函数: datediff 21 14. 日期增加函数: date_add 21 15. 日期减少函数: date_sub 21 六、条件函数 21 1. If函数: if 21 2. 非查找函数: COALESCE 22 3. 条件判断函数:CASE 22 4. 条件判断函数:CASE 22 七、字符串函数 23 1. 字符串长度函数:length 23 2. 字符串反转函数:reverse 23 3. 字符串连接函数:concat 23 4. 带分隔符字符串连接函数:concat_ws 23 5. 字符串截取函数:substr,substring 24 6. 字符串截取函数:substr,substring 24 7. 字符串转大写函数:upper,ucase 24 8. 字符串转小写函数:lower,lcase 25 9. 去格函数:trim 25 10. 左边去格函数:ltrim 25 11. 右边去格函数:rtrim 25 12. 正则表达式替换函数:regexp_replace 26 13. 正则表达式解析函数:regexp_extract 26 14. URL解析函数:parse_url 26 15. json解析函数:get_json_object 27 16. 格字符串函数:space 27 17. 重复字符串函数:repeat 27 18. 首字符ascii函数:ascii 28 19. 左补足函数:lpad 28 20. 右补足函数:rpad 28 21. 分割字符串函数: split 28 22. 集合查找函数: find_in_set 29 八、集合统计函数 29 1. 个数统计函数: count 29 2. 总和统计函数: sum 29 3. 平均值统计函数: avg 30 4. 最小值统计函数: min 30 5. 最大值统计函数: max 30 6. 非集合总体变量函数: var_pop 30 7. 非集合样本变量函数: var_samp 31 8. 总体标准偏离函数: stddev_pop 31 9. 样本标准偏离函数: stddev_samp 31 10.中位数函数: percentile 31 11. 中位数函数: percentile 31 12. 近似中位数函数: percentile_approx 32 13. 近似中位数函数: percentile_approx 32 14. 直方图: histogram_numeric 32 九、复合类型构建操作 32 1. Map类型构建: map 32 2. Struct类型构建: struct 33 3. array类型构建: array 33 十、复杂类型访问操作 33 1. array类型访问: A[n] 33 2. map类型访问: M[key] 34 3. struct类型访问: S.x 34 十一、复杂类型长度统计函数 34 1. Map类型长度函数: size(Map) 34 2. array类型长度函数: size(Array) 34 3. 类型转换函数 35
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值