【spark】十 DataFrame min、max、sum必须要用到is not anaggregate function错误,怎么处理

DataFrame.select(min(substring(col("A"),2,8)),max(substring(col("A"),2,8)),sum(col("B"))) 
df.withColumn("acc_ip_cnt_percent",col("acc_ip_cnt")/max("acc_ip_cnt"))#相求登录次数累加后百分比例
#拆解为
df.withColumn("max_test",max("acc_ip_cnt")) #也会报同样的错误

>>>
AnalysisException: u"grouping expressions sequence is empty, and '`xxxx`' is not an aggregate function. Wrap '(max(`xxxx`) AS `xxx`) ……

报错提示需要aggregate by信息
①是我用错了,不能使用col("A")来取A列的值再substring,
②withColumn的方法中,max/min/等操作必须要有grouping的信息
解决方案:应该直接用select方法去求得列最大值,例如substring("A",2,8) 取a列的第二个字符起的八位字符,取最大值、最小值做时间字符窜,这样才不会提示需要aggregate by的错误
方法一:如果使用Window窗口相关信息,不报错,但是数据太大(亿级),直接OOM。而且明显加大处理时间不可取
df.select(min("A").over(Window.rowsBetweens(Window.unboundedPreceding
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值