sparkstreaming
qzWsong
这个作者很懒,什么都没留下…
展开
-
sparkStream+kafka实现exactlyOne第三种--Hbase
前边我们已经有了两种解决方式《sparkStream+kafka实现exactlyOne第三种--Mysql-事务》、《sparkStream+kafka实现exactlyOne第二种--Redis-pipeline》这是第三种《sparkStream+kafka实现exactlyOne第二种--Hbase-行内事务 phoenix》,habse一行的数据 是有事务的,这一行要么都成功,要么都失败,因此,我们可以为一个hbase表添加一个offset列族,每次写入一条数据就将offset一并写入(.原创 2021-02-27 11:04:09 · 174 阅读 · 0 评论 -
sparkStream-wordCount实现exactlyOne第二种--Redis
主要思路将数据收集到driver端,利用redis的Pipeline写数据和偏移量,与第一种mysql的类似但是redis pipline只有单机版redis或者主备redis才支持,集群版的redis不支持package com.ws.sparkstreaming.kafkaredisimport com.ws.sparkstreaming.utils.{JedisPool, OffsetUtils}import org.apache.kafka.clients.consumer.原创 2021-02-24 13:02:20 · 93 阅读 · 0 评论 -
sparkStream-wordCount实现exactlyOne第一种--Mysql
主要思路1、读取历史偏移量2、根据偏移量加载数据 kafkaUtils.createDirectStream 获取Dstream3、遍历Dstream foreachRdd 获取到kafkaRdd4、从kafkaRdd as获取当前偏移量kafkaRdd.asInstanceOf[HasOffsetRanges].offsetRanges5、开启事务6、kafkaRdd.value 获取kafka输入的数据7、rdd转换 处理、将数据写入mysql8、根据新...原创 2021-02-23 13:12:58 · 173 阅读 · 0 评论 -
SparkSteaming整合kafka和redis 默认偏移量
SparkSteaming整合kafka和redis,这里用的是默认偏移量package com.ws.sparkstreamingimport org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, InputDStream}import org.apache.spark.stre.原创 2021-02-21 13:16:55 · 177 阅读 · 0 评论 -
sparkstreaming整合kafka
原创 2021-02-20 12:36:35 · 106 阅读 · 0 评论 -
sprakstreaming updateStateByKey 累计计算
updateStateByKeypackage com.ws.sparkstreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, StreamingContext}object WordCountUpdateState { def原创 2021-02-20 12:27:34 · 102 阅读 · 0 评论