![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 86
跳跃的list
做一个自由翱翔的代码搬运工
展开
-
SparkStreaming使用checkpoint存在的问题及解决方案
SparkStreaming使用checkpoint存在的问题及解决方案 sparkstreaming关于偏移量的管理 转存失败重新上传取消 在 Direct DStream初始化的时候,需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据。 offsets就是步骤4中所保存的offsets位置 读取并处理消息 处理完之后存储结...原创 2021-09-24 10:19:52 · 1001 阅读 · 0 评论 -
Spark性能调优之合理设置并行度
1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度! 当分配完所能分配的最大资源了,然后对应资源去调节程序的并行度,如果并行度没有与资源相匹配,那么导致你分配下去的资源都浪费掉了。同时并行运行,还可以让每个task要处理的数量变少(很简单的原理。合理设置并行度,可以充分利用集群资源,减...原创 2019-10-14 12:11:28 · 133 阅读 · 0 评论 -
SparkContext、SparkConf和SparkSession的初始化
SparkContext和SparkConf 任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。 初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。 val conf = new SparkConf().s...原创 2019-09-09 18:50:34 · 227 阅读 · 0 评论 -
SparkStreaming使用checkpoint存在的问题及解决方案
SparkStreaming使用checkpoint存在的问题及解决方案 sparkstreaming关于偏移量的管理 在 Direct DStream初始化的时候,需要指定一个包含每个topic的每个分区的offset用于让Direct DStream从指定位置读取数据。 offsets就是步骤4中所保存的offsets位置 读取并处理消息 处理完之后存储结果数据 用虚线圈...原创 2019-09-09 20:16:00 · 610 阅读 · 0 评论