![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
凌寒独自开
后端开发
展开
-
kafka —— Consumer Group Rebalance优化过程
kafka—— consumer group rebalance 优化过程原创 2022-04-29 12:28:52 · 1477 阅读 · 0 评论 -
Spark-submit提交任务如何读取外部配置文件
Spark-submit的--files参数原创 2022-01-05 18:25:33 · 2828 阅读 · 0 评论 -
org.apache.spark.sql.kafka010.KafkaMicroBatchReader.createDataReaderFactories()Ljava/util/List;
在windows本地用 IDEA 测试StructuredStreaming集成kafka的代码时,出现以下异常报错:Exception in thread "stream execution thread for [id = 02953159-7c16-4aca-aa16-e2f40ed96488, runId = 539b97c0-2092-47a0-b5c1-8460383c5128]" java.lang.AbstractMethodError: org.apache.spark.sql.kafk原创 2021-12-15 17:56:35 · 2134 阅读 · 0 评论 -
Spark的宽窄依赖
对于Spark的宽窄依赖问题,总是看的时候感觉自己明白了,过段时间不接触了就好像又不懂了。这回试着先给自己讲明白。rdd的依赖关系是指上一个算子形成的rdd跟下一个算子形成的rdd 分区之间的对应关系,分为宽依赖和窄依赖。首先,书本上的定义:窄依赖是指每个父RDD的分区都至多被一个子RDD的分区使用 父RDD视角下 父:子 = 1:1宽依赖是指多个子RDD的分区依赖一个父RDD的分区 父RDD视角下 父:子 = 1:多从节点数据丢失后的恢复效率来看这里的恢复应该是从子节点数据倒推原创 2021-12-07 17:01:37 · 898 阅读 · 0 评论 -
spark submit——yarn模式参数调优
记录一下最近整理的spark 集群模式提交yarn的部分常用参数设置 (友情提示:以下代码块中注释部分未加注释标# )spark-submit --master yarn-cluster \ yarn模式 --name ${APP_NAME} \ appName --executor-memory 3G \ 每个exe原创 2021-11-11 10:40:23 · 1623 阅读 · 0 评论 -
spark——Executor内存管理
转载请注明出处 侵权必究 凶巴巴严肃脸.jpg原创 2021-11-09 19:52:33 · 1044 阅读 · 0 评论