spark groupByKey flatMapGroups初试

最新推荐文章于 2022-12-30 13:23:36 发布

p是马甲

最新推荐文章于 2022-12-30 13:23:36 发布

阅读量1.6k

点赞数

文章标签：大数据 scala

原文链接：http://www.cnblogs.com/qq1144054302/p/10438913.html

版权

业务需要：

根据历史库存预测未来某时间内库存

算法需求：

1. 统计历史3年内的库存量

2. 将库存划分为平稳流量和波动（异常）流量

实际情况：

1. 每天数据量过亿

2. 每天细分维度小于10万

3. 数据中存在时间断点

4. 尝试按月批次直接处理，过程较慢

回归正题，数据需要按各细分维度计算异常，平稳，填充时间断点，

第一感觉，分组，然后对组内数据处理，

一顿百度，发现 groupByKey 可以按 key(某几个字段分组)，然后使用flatMapGroups 对组内数据单独处理

df2.groupByKey(row => {
      (row.getAs[](""),row.getAs[](""))
    }).flatMapGroups((key, it) => {
      ArrayBuffer[(String/**/,String/**/)]()　　
　　 })
}

　　一顿操作，本地ok

放入生产，集群环境，顿时懵了，结果完全不对。。。

怀疑executor导致问题，先添加日志

神奇是事情发生了，groupByKey之前数据是按时间排序

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

p是马甲

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark groupByKey flatMapGroups初试

业务需要：根据历史库存预测未来某时间内库存算法需求：1. 统计历史3年内的库存量2. 将库存划分为平稳流量和波动（异常）流量实际情况：1. 每天数据量过亿2. 每天细分维度小于10万3. 数据中存在时间断点4. 尝试按月批次直接处理，过程较慢回归正题，数据需要按各细分维度计算异常，平稳，填充时间断点，第一感觉，...
复制链接

扫一扫