Spark Streaming中如何实现Exactly-Once

最新推荐文章于 2022-05-05 09:40:11 发布

浅汐王

最新推荐文章于 2022-05-05 09:40:11 发布

阅读量1.4k

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/qq_32252917/article/details/78827126

版权

本文详细介绍了如何在 Spark Streaming 中实现 Exactly-once 语义，包括幂等写入和事务写入两种方法。文章指出，Exactly-once 需要结合 Spark Streaming、Kafka 和 MySQL，并讨论了不同阶段的处理以达到这一目标。

摘要由CSDN通过智能技术生成

Exactly-once 语义是实时计算的难点之一。要做到每一条记录只会被处理一次，即使服务器或网络发生故障时也能保证没有遗漏，这不仅需要实时计算框架本身的支持，还对上游的消息系统、下游的数据存储有所要求。此外，我们在编写计算流程时也需要遵循一定规范，才能真正实现 Exactly-once。本文将讲述如何结合 Spark Streaming 框架、Kafka 消息系统、以及 MySQL 数据库来实现 Exactly-once 的实时计算流程。

Spark Streaming

引例

首先让我们实现一个简单而完整的实时计算流程。我们从 Kafka 接收用户访问日志，解析并提取其中的时间和日志级别，并统计每分钟错误日志的数量，结果保存到 MySQL 中。

示例日志:

     
     
     
      
      
      2017-07-30 14:09:08 ERROR some message
     
     
     
     
     
     
      
      
      2017-07-30 14:09:20 INFO  some message
     
     
     
     
     
     
      
      
      2017-07-30 14:10:50 ERROR some message

结果表结构，其中 log_time 字段会截取到分钟级别：

     
     
     
      
      
      create 
      
      
      table error_log (
     
     
     
     
     
     
      
      
        log_time datetime primary 
      
      
      key,
     
     
     
     
     
     
      
      
        log_count 
      
      
      int 
      
      
      not 
      
      
      null 
      
      
      default 
      
      
      0
     
     
     
     
     
     
      
      
      );

Scala 项目通常使用 sbt 来管理。我们将下列依赖添加到 build.sbt 文件中。本例使用的是 Spark 2.2 和 Kafka 0.10，数据库操作类库使用了 ScalikeJDBC 3.0。

     
     
     
      
      
      scalaVersion := 
      
      
      "2.11.11"
     
     
     
     
     
     
     
     
     
      
      
      libraryDependencies ++=