实时计算DStream下求平均值（reduceByKey or combineByKey）

最新推荐文章于 2023-09-16 07:57:05 发布

weixin_30363981

最新推荐文章于 2023-09-16 07:57:05 发布

阅读量377

点赞数

文章标签：大数据 python

原文链接：http://www.cnblogs.com/1023linlin/p/8619328.html

版权

对NC市的卡口数据进行分析，大概所有卡口每15秒接入的有效数据在3000条左右，现在产品经理要求对这些数据进行拥堵分析，通过两个卡口之间的车辆行驶时长来判断道路的拥堵情况。具体算法不展开。其中我需要做的是用Spark Streaming把Kafka的数据接进来，然后根据卡口数据中的车牌和经过时间找到之前的过车记录，取出时间差，即为该路段的一条行驶时长，根据路段编码求时长的平均值。

我发现RDD的combineByKey只需要传入前三个参数，而DStream则必须传入完整的5个参数，第四个参数不知道怎么用，找遍了github和Spark官网也没有，晚点再去研究一下！

def combineByKey[C](

createCombiner: V => C,
mergeValue: (C, V) => C,
mergeCombiners: (C, C) => C,
partitioner: Partitioner,
mapSideCombine: Boolean = true）

只能用reduceByKey 代替了！

未完待续~~~~~~~~~~~

转载于:https://www.cnblogs.com/1023linlin/p/8619328.html

weixin_30363981

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实时计算DStream下求平均值（reduceByKey or combineByKey）

对NC市的卡口数据进行分析，大概所有卡口每15秒接入的有效数据在3000条左右，现在产品经理要求对这些数据进行拥堵分析，通过两个卡口之间的车辆行驶时长来判断道路的拥堵情况。具体算法不展开。其中我需要做的是用Spark Streaming把Kafka的数据接进来，然后根据卡口数据中的车牌和经过时间找到之前的过车记录，取出时间差，即为该路段的一条行驶时长，根据路段编码求时长的平均值。我发现RDD...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。