spark
文章平均质量分 80
数据科学和工程
Keep a Pure Curiosity
展开
-
Spark任务动态伸缩机制介绍
目录背景第一部分 配置实现第二部分 动态配置原理和源码分析第三部分 总结参考文献及资料背景Spark默认使用的是资源预分配的模式。即在任务运行之前,需要提前指定任务运行需要的资源量。但是在实际线上生产环境使用过程就存在资源浪费和不足的问题,特别是Spark Streaming类型的任务。例如很多日志数据在一天中量并不是均匀分布的,而是一个“双驼峰”。对于预分配模式,就存在日志峰值期间,运算资源不足导致数据处理的延迟,而在日志低峰时期存在资源闲置却无法释放(特别是资源管理器粗粒度模式)。使原创 2021-05-04 17:03:44 · 1040 阅读 · 0 评论 -
Spark程序排错系列(System memory * must be at least *)
1.1 报错背景本地ideal研发环境(windows)运行spark程序调试,报错如下:21/03/29 12:28:36 ERROR SparkContext: Error initializing SparkContext. java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memo原创 2021-03-29 22:46:31 · 1327 阅读 · 2 评论