hive分区处理注意点

最新推荐文章于 2024-08-29 18:49:20 发布

第十人

最新推荐文章于 2024-08-29 18:49:20 发布

阅读量382

点赞数

分类专栏： hive 文章标签： hive 日期函数

本文链接：https://blog.csdn.net/bestlove1990/article/details/43764321

版权

2 篇文章 0 订阅

订阅专栏

在优化一个使用4W个map的job的时候，发现了一个使用hive的注意点，跟大家分享下。

hive表中一般都有分区，在程序里我们会动态取某个分区里的数据，这时分区值就是一个函数。这个函数的选择就是关键了。

优化前的分区函数是： dt = date_sub(from_unixtime(unix_timestamp(), 'yyyy-MM-dd'), 2) （水平有限，当时就这么写了），map数：4W+

优化后的分区函数是：dt = sysdate( - 2) （日期处理函数）， map数：860

之前map数过多是否是搂了很多分区，这个还不太确定，有哪位大神知道，麻烦告诉我下。

代码与业务有关，就不方便放这了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注