开窗函数大家都用过,其中sum()的开窗函数我们可以很好的用来求一些累加的值,我之前一直认为开窗函数的执行效率都差不多,然而有一次我使用sum开窗函数计算某个车辆每个时间累积行驶了多少距离,由于有定位数据,数据量比较大,300万左右,结果程序执行了超过一个小时都不出结果,然后我用排除法把sum换成row_number,结果秒出结果.我才发现sum的不同
HIVE sparkSQL sum()over()开窗函数的效率问题
最新推荐文章于 2024-04-26 17:46:45 发布
开窗函数大家都用过,其中sum()的开窗函数我们可以很好的用来求一些累加的值,我之前一直认为开窗函数的执行效率都差不多,然而有一次我使用sum开窗函数计算某个车辆每个时间累积行驶了多少距离,由于有定位数据,数据量比较大,300万左右,结果程序执行了超过一个小时都不出结果,然后我用排除法把sum换成row_number,结果秒出结果.我才发现sum的不同