![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
大象灵感
写sql的
展开
-
验证collect_set后的数据是否比展开的数据占用空间小
验证collect_set后的数据是否比摊开的数据占用空间小?文件格式:parquet去重记录数:776885759验证方式:读取用户日志表,A表记录用户id和日志时间的去重记录,B表把用户id和该用户对应的日志时间的数组作为一行来记录。B表展开后与A表相同。两表存储的数据量是相同的。最后观察A表和B表的磁盘占用空间是否相同。实现结论:A表占用10.9G,B表占用4.7G,说明collect_set后的数据占用空间更小,节省磁盘空间57%。-- 表A:crea原创 2021-10-12 14:19:51 · 210 阅读 · 0 评论 -
greatest()遇到null怎么处理?
greatest(1,null) spark和hive跑出来的结果不一样,小心有坑!!!greatest在spark中如果遇到null值是被忽略的,但是在hive中直接就返回null了。原创 2021-09-28 20:33:43 · 1624 阅读 · 0 评论