spark java 聚合_将Spark SQL与Spark Streaming一起使用

尝试了解Spark Structured Streaming方面的SparkSql .

Spark Session从kafka主题中读取事件,将数据聚合到按不同列名分组的计数,并将其打印到控制台 .

原始输入数据结构如下:

+--------------+--------------------+----------+----------+-------+-------------------+--------------------+----------+

|. sourceTypes| Guid| platform|datacenter|pagesId| eventTimestamp| Id1234| Id567890|

+--------------+--------------------+----------+----------+-------+-------------------+--------------------+----------+

| Notififcation|....................| ANDROID| dev| aa|2018-09-27 09:41:29|fce81f05-a085-392...|{"id":...|

| Notififcation|....................| ANDROID| dev| ab|2018-09-27 09:41:29|fce81f05-a085-392...|{"id":...|

| Notififcation|....................| WEBOS| dev| aa|2018-09-27 09:42:46|0ee089c1-d5da-3b3...|{"id":...|

| Notififcation|....................| WEBOS| dev| aa|2018-09-27 09:42:48|57c18964-40c9-311...|{"id":...|

| Notififcation|....................| WEBOS| dev| aa|2018-09-27 09:42:48|5ecf1d77-321a-379...|{"id":...|

| Notififcation|....................| WEBOS| dev| aa|2018-09-27 09:42:48|5ecf1d77-321a-379...|{"id":...|

| Notififcation|....................| WEBOS| dev| aa|2018-09-27 09:42:52|d9fc4cfa-0934-3e9...|{"id":...|

+--------------+--------------------+----------+----------+-------+-------------------+--------------------+---------+

sourceTypes , platform , datacenter 和 pageId 需要计数 .

使用以下代码聚合数据:

Dataset query = sourceDataset

.withWatermark("eventTimestamp", watermarkInterval)

.select(

col("eventTimestamp"),

col("datacenter"),

col("platform"),

col("pageId")

)

.groupBy(

window(col("eventTimestamp"), windowInterval),

col("datacenter"),

col("platform"),

col("pageId")

)

.agg(

max(col("eventTimestamp"))

);

这里 watermarkInterval=45seconds , windowInterval=15seconds & triggerInterval=15seconds .

使用新的聚合数据集:

aggregatedDataset

.writeStream()

.outputMode(OutputMode.Append())

.format("console")

.trigger(Trigger.ProcessingTime(triggerInterval))

.start();

有几个问题:

输出数据不打印每个 groupBy 平台,pageId等的计数 .

如何以json格式打印输出?我尝试在控制台上输出数据时使用 select(to_json(struct("*")).as("value")) ,但它不起作用 .

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值