spark学习过程中的小记

最新推荐文章于 2024-08-18 16:00:46 发布

Code_lr

最新推荐文章于 2024-08-18 16:00:46 发布

阅读量591

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/Code_lr/article/details/70305042

版权

spark 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

1、日志打印太多，不方便查看输出：

import org.apache.log4j.{Logger,Level}
Logger.getRootLogger.setLevel(Level.WARN)

2、

SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/C:/***/.m2/repository/org/slf4j/slf4j-log4j12/1.7.5/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/C:/***/.m2/repository/org/apache/logging/log4j/log4j-slf4j-impl/2.1/log4j-slf4j-impl-2.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]

看下上面第二行第三行的日志，然后再maven依赖中找一下是哪个jar的依赖，在pom文件中添加以下片段：

	<exclusions>
                <exclusion>
                    <groupId>org.apache.logging.log4j</groupId>
                    <artifactId>log4j-slf4j-impl</artifactId>
                </exclusion>
        </exclusions>

3、spark streaming 基于Direct方式从kafka拉取数据

这种新的不基于Receiver的直接方式，是在Spark 1.3中引入的，从而能够确保更加健壮的机制。替代掉使用Receiver来接收数据后，这种方式会周期性地查询Kafka，来获得每个topic+partition的最新的offset，从而定义每个batch的offset的范围。当处理数据的job启动时，就会使用Kafka的简单consumer api来获取Kafka指定offset范围的数据。
这种方式有如下优点：
1、简化并行读取：如果要读取多个partition，不需要创建多个输入DStream然后对它们进行union操作。Spark会创建跟Kafka partition一样多的RDD partition，并且会并行从Kafka中读取数据。所以在Kafka partition和RDD partition之间，有一个一对一的映射关系。
2、高性能：如果要保证零数据丢失，在基于receiver的方式中，需要开启WAL机制。这种方式其实效率低下，因为数据实际上被复制了两份，Kafka自己本身就有高可靠的机制，会对数据复制一份，而这里又会复制一份到WAL中。而基于direct的方式，不依赖Receiver，不需要开启WAL机制，只要Kafka中作了数据的复制，那么就可以通过Kafka的副本进行恢复。

（不会导致数据丢失。自己做的实验也是如此。无论以怎样的时间间隔从kafka拉取数据都不会丢失。一开始由于对a输出算子中print()函数理解有误，导致以为会有数据丢失。其实print()函数默认打印的就是10条数据。在foreach算子中的foreachRDD中也能打印每条收到的数据，确实没有丢失。也可以通过saveAsTextFile保存到文件来看接受的数据，都是完整的）

Code_lr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark学习过程中的小记

1、日志打印太多，不方便查看输出：import org.apache.log4j.{Logger,Level}Logger.getRootLogger.setLevel(Level.WARN)2、SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/C:/
复制链接

扫一扫

专栏目录