structured  streaming+kafka 异常处理

由于使用structured  streaming +kafka  处理数据,任务运行一段时间后就会出现Kafka数据无法消费,任务运行正常,但是从日志中看到This member will leave the group 。。。的输出。由于是structured  streaming做的,所以在设置Kafka参数时,在任务中是否生效,在测试,所以先记录一下,预知下文如何,且看下次分解。

1,consumer poll一次数据,处理时间过长,第二次consumer poll又来了

kafka消费端 poll数据的时候一次poll数据太多,由于是structured  streaming做的流处理,在数据业务逻辑的处理与数据输出到数据库的原因,处理的时间有点长。导致一批数据处理完成的周期较长,导致下一次poll的时间太长,超出了消费者和broker联系的心跳时间(消费端调用poll方法的时候回进行一次心跳),超出这个心跳时间,broker就会认为这个消费者挂了,所以就会抛出上面的异常,并且对消费者通过算法重新rebalance。
 

2020-03-15 16:47:32 WARN AbstractCoordinator:[Consumer clientId=consumer-1, groupId=spark-kafka-source-f1681175-3b4f-414a-926e-6dbdd1d39656--1373084301-driver-0] This member will leave the group because consumer poll timeout has expired. This means the time between subsequent calls to poll() was
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
这里是一个使用Spark Streaming和Spark SQL处理结构化数据的示例: 假设我们有一个实时的用户行为日志,其中包含用户ID、行为类型和时间戳。我们想要实时计算每个用户的行为数量,并将结果存储在一个数据库中。 首先,我们使用Spark StreamingKafka中读取实时日志数据,并将其转换为DataFrame: ```scala import org.apache.spark.streaming.kafka.KafkaUtils import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.sql.{DataFrame, SparkSession} val spark = SparkSession.builder().appName("StructuredStreamingDemo").getOrCreate() val ssc = new StreamingContext(spark.sparkContext, Seconds(5)) val kafkaParams = Map[String, String]("bootstrap.servers" -> "localhost:9092") val topics = Set("user_behavior_logs") val kafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder]( ssc, kafkaParams, topics) val logs = kafkaStream.map(_._2.split(",")) .map(log => (log(0), log(1), log(2).toLong)) .toDF("user_id", "behavior_type", "timestamp") ``` 接下来,我们使用Spark SQL对DataFrame进行查询和聚合操作,计算每个用户的行为数量: ```scala import org.apache.spark.sql.functions._ val result = logs.groupBy("user_id", "behavior_type") .agg(count("*").as("count")) .select("user_id", "behavior_type", "count") result.writeStream .outputMode("update") .format("console") .start() result.writeStream .outputMode("update") .foreach(new JdbcForeachWriter()) .start() ``` 最后,我们可以将结果输出到控制台或数据库中。这里我们使用自定义的JdbcForeachWriter将结果写入MySQL数据库: ```scala import java.sql.{Connection, DriverManager, PreparedStatement} class JdbcForeachWriter extends ForeachWriter[Row] { var conn: Connection = _ var statement: PreparedStatement = _ def open(partitionId: Long, version: Long): Boolean = { Class.forName("com.mysql.jdbc.Driver") conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/test", "root", "password") statement = conn.prepareStatement("INSERT INTO user_behavior(user_id, behavior_type, count) VALUES (?, ?, ?)") true } def process(row: Row): Unit = { statement.setString(1, row.getString(0)) statement.setString(2, row.getString(1)) statement.setLong(3, row.getLong(2)) statement.executeUpdate() } def close(errorOrNull: Throwable): Unit = { statement.close() conn.close() } } ``` 这样,我们就完成了一个使用Spark Streaming和Spark SQL处理结构化数据的示例。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值