Spark Streaming基于kafka的Direct详解

最新推荐文章于 2022-08-14 17:25:57 发布

二府村

最新推荐文章于 2022-08-14 17:25:57 发布

阅读量1.5w

点赞数 9

分类专栏： Spark梦想文章标签： spark Kafka 源码 Direct

本文链接：https://blog.csdn.net/erfucun/article/details/52275369

版权

本文深入探讨Spark Streaming的Direct模式与Kafka的集成，解析Direct方式的工作原理，包括其事务一致性、性能优势与并行度挑战。此外，通过案例实战展示如何配置和使用Direct API，并对关键源码进行解读，强调其与Receiver方式的区别，以及在容错性和效率上的提升。

摘要由CSDN通过智能技术生成

本博文主要包括一下内容：
1，SparkStreaming on Kafka Direct工作原理机制
2，SparkStreaming on Kafka Direct 案例实战
3，SparkStreaming on Kafka Direct源码解析

一：SparkStreaming on Kafka Direct工作原理机制：

1、Direct方式特点：

（1）Direct的方式是会直接操作kafka底层的元数据信息，这样如果计算失败了，可以把数据重新读一下，重新处理。即数据一定会被处理。拉数据，是RDD在执行的时候直接去拉数据。
（2）由于直接操作的是kafka，kafka就相当于你底层的文件系统。这个时候能保证严格的事务一致性，即一定会被处理，而且只会被处理一次。而Receiver的方式则不能保证，因为Receiver和ZK中的数据可能不同步，spark Streaming可能会重复消费数据，这个调优可以解决，但显然没有Direct方便。而Direct api直接是操作kafka的，spark streaming自己负责追踪消费这个数据的偏移量或者offset，并且自己保存到checkpoint，所以它的数据一定是同步的，一定不会被重复。即使重启也不会重复，因为checkpoint了，但是程序升级的时候，不能读取原先的checkpoint，面对升级checkpoint无效这个问题，怎么解决呢?升级的时候读取我指定的备份就可以了，即手动的指定checkpoint也是可以的，这就再次完美的确保了事务性，有且仅有一次的事务机制。那么怎么手动checkpoint呢？构建SparkStreaming的时候，有getorCreate这个api，它就会获取checkpoint的内容，具体指定下这个checkpoint在哪就好了。或者如下：

private static JavaStreamingContext createContext(
            String checkpointDirectory, SparkConf conf) {
        // TODO Auto-generated method stub
        System.out.println("Creating new context");

        SparkConf sparkConf = conf;
        JavaStreamingContext ssc = new JavaStreamingContext(sparkConf,Durations.seconds(5));
        ssc.checkpoint(checkpointDirectory);
        return ssc; 
    }

而如果从checkpoint恢复后，如果数据累积太多处理不过来，怎么办?1）限速2）增强机器的处理能力3）放到数据缓冲池中。

（3）由于底层是直接读数据，没有所谓的Receiver，直接是周期性(Batch Intervel)的查询kafka，处理数据的时候，我们会使用基于kafka原生的Consumer api来获取kafka中特定范围(offset范围)中的数据。这个时候，Direct Api访问kafka带来的一个显而易见的性能上的好处就是，如果你要读取多个partition，Spark也会创建RDD的partition，这个时候RDD的partition和kafka的partition是一致的。而Receiver的方式，这2个partition是没任何关系的。这个优势是你的RDD，其实本质上讲在底层读取kafka的时候，kafka的partition就相当于原先hdfs上的一个block。这就符合了数据本地性。RDD和kafka数据都在这边。所以读数据的地方，处理数据的地方和驱动数据处理的程序都在同样的机器上，这样就可以极大的提高性能。不足之处是由于RDD和kafka的patition是一对一的，想提高并行度就会比较麻烦。提高并行度还是repartition，即重新分区，因为产生shuffle，很耗时。这个问题，以后也许新版本可以自由配置比例，不是一对一。因为提高并行度，可以更好的利用集群的计算资源，这是很有意义的。
（4）不需要开启wal机制，从数据零丢失的角度来看，极大的提升了效率，还至少能节省一倍的磁盘空间。从kafka获取数据，比从hdfs获取数据，因为zero copy的方式，速度肯定更快。

2、SparkStreaming on Kafka Direct与Receiver 的对比：

从高层次的角度看，之前的和Kafka集成方案（reciever方法）使用WAL工作方式如

最低0.47元/天解锁文章

二府村

关注

9
点赞
踩
48

收藏

觉得还不错? 一键收藏
3
评论
Spark Streaming基于kafka的Direct详解

本博文主要包括一下内容： 1，SparkStreaming on Kafka Direct工作原理机制 2，SparkStreaming on Kafka Direct 案例实战 3，SparkStreaming on Kafka Direct源码解析一：SparkStreaming on Kafka Direct工作原理机制：1、Direct方式特点：（1）Direct的方式是会直接操作ka
复制链接

扫一扫