java spark 求平均值_Spark流式传输计算平均值

我从格式中接收来自kafka的数据,其中null是关键 .

null,val1,val2,val3,val4,val5,val6,val7,...val23

null,val1,val2,val3,val4,val5,val6,val7,...val23

null,val1,val2,val3,val4,val5,val6,val7,...val23

我现在映射了值以删除空键并使用以下代码形成新的键和值对 .

val topics = Array("kafka-topic")

val stream = KafkaUtils.createDirectStream[String, String](

streamingContext,

PreferConsistent,

Subscribe[String, String](topics, kafkaParams)

)

streamingContext.checkpoint("hdfs:///hdfs/location")

val record= stream.map(record=>record.value().toString)

val rdds=record.transform

{

pps=>pps.flatMap(_.split(","))

}

val ppds= rdds.transform

` `{

pair=>pair.map(vals=>

(vals(2).toString(),Set(vals(1).toLong,vals(2),vals(3),vals(4),val(5),val(6),val(7)....val(23)

}

where vals(2)a String will be the key and the remaining 22 values will be the values.

我现在试图在20秒的时间窗口内获得每个键的所有值的平均值,并将每个键的计算平均值连续推送到数据存储(HBASE) . . 在批处理模式下,我知道有一个允许你这样做的aggregatebykey()方法 .

在流媒体模式下,如何实现这一目标?

还有一些值是字符串的可能性我如何跳过字符串的值并计算仅数值类型的平均值,同时不断推送更新到HBASE?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值