spark groupByKey flatMapGroups初试

业务需要:

根据历史库存 预测未来某时间内库存

 

算法需求:

1. 统计历史3年内的库存量

2. 将库存划分为 平稳流量 和 波动(异常)流量

 

实际情况:

1. 每天数据量过亿

2. 每天细分维度小于10万

3. 数据中存在 时间断点

4. 尝试按月批次直接处理,过程较慢

 

回归正题,数据需要 按 各细分维度 计算异常,平稳,填充时间断点,

第一感觉,分组,然后对组内数据处理,

一顿百度 , 发现 groupByKey 可以按 key(某几个字段分组),然后使用flatMapGroups 对组内数据 单独处理

df2.groupByKey(row => {
      (row.getAs[](""),row.getAs[](""))
    }).flatMapGroups((key, it) => {
      ArrayBuffer[(String/**/,String/**/)]()  
   })
}

  一顿操作,本地ok

放入生产,集群环境,顿时懵了,结果完全不对。。。

怀疑executor导致问题,先添加日志

神奇是事情发生了,groupByKey之前数据是按时间排序

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值