记录一次spark配置

最新推荐文章于 2022-11-24 17:15:45 发布

麻辣灬小笼包

最新推荐文章于 2022-11-24 17:15:45 发布

阅读量431

点赞数

分类专栏：大数据文章标签： spark

本文链接：https://blog.csdn.net/weixin_29002189/article/details/115080422

版权

大数据专栏收录该内容

13 篇文章 0 订阅

订阅专栏

//序列化
sparksession.conf.set(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”)
//保证数据不丢失
sparksession.conf.set(“spark.streaming.stopGracefullyOnShutdown”, “true”)
//开启被压
// sparksession.conf.set(“spark.streaming.backpressure.enabled”, “true”)
// 启用反压机制时每个接收器接收第一批数据的初始最大速率
//sparksession.conf.set(“spark.streaming.backpressure.initialRate”, “5000”)
//spark.streaming.kafka.maxRatePerPartition设定对目标topic每个partition每秒钟拉取的数据条数。
//假设此项设为1，批次间隔为10s，目标topic只有一个partition，则一次拉取的数据量为1101=10。
//sparksession.conf.set(“spark.streaming.kafka.maxRatePerPartition”, “1000”)

// SparkContext默认只有一个实例。如果在config（SparkConf）中设置了allowMultipleContexts为true，
//当存在多个active级别的SparkContext实例时Spark会发生警告，而不是抛出异常，要特别注意。
// 如果没有配置，则默认为false
sparksession.conf.set("spark.driver.allowMultipleContexts", "true")
//这里spark设置的默认poll的timeout是512毫秒，如果512毫秒后没拉到数据就会抛异常
sparksession.conf.set("spark.streaming.kafka.consumer.poll.ms", "1000")
//增加job并行度的参数
sparksession.conf.set("spark.streaming.concurrentJobs", "10")
//获取topic分区leaders(kafka中leade有时会发生变换)及其最新offsets时，调大重试次数
sparksession.conf.set("spark.streaming.kafka.maxRetries", "5")
//超时时间
sparksession.conf.set("spark.network.timeout", "300s")
//rpc超时时间
sparksession.conf.set("spark.rpc.askTimeout", "600s")

麻辣灬小笼包

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
记录一次spark配置

//序列化sparksession.conf.set(“spark.serializer”, “org.apache.spark.serializer.KryoSerializer”)//保证数据不丢失sparksession.conf.set(“spark.streaming.stopGracefullyOnShutdown”, “true”)//开启被压// sparksession.conf.set(“spark.streaming.backpressure.enabled”, “true”
复制链接

扫一扫

专栏目录