Spark
文章平均质量分 89
进击吧大数据
大数据技术和数仓实操;大数据技术架构手册编制者
展开
-
Spark作业不知道该如何分配资源怎么办?
前几天有好几个朋友问我关于spark作业分配资源的问题:即在提交作业的时候,不知道该分配多少资源比较好?我的回答是靠经验,仔细想想靠经验这等于不是没说吗,总有一些方法论或者思路的吧。所以就有了这篇文章,下笔的时候着实是不知道该怎么写,所以在网上搜索了一下,看看大佬们是怎么回答的。赶巧了不是,还真发现3年前就有人问过这个问题。看了下评论,我感觉我能看懂,但不知道朋友们是否能看懂,所以我想还是要再详细啰嗦一下吧 首先呢,spark官网给我们提供了一些硬件层面的建议,先上链接https://spark.原创 2022-01-11 12:44:43 · 2001 阅读 · 2 评论 -
(纯干货建议收藏)一次GC引发的Spark调优大全
上一篇Project Tungsten On Spark-内存设计总结了Spark内存设计相关的知识点,本篇会快速为读者复习一下JVM相关的知识点,然后基于线上的GC调优对spark整体的调优做一个汇总,希望能让读者在调优之路更上一层楼。一般在我们开发spark程序的时候,从代码开发到上线以及后期的维护中,在整个过程中都需要涉及到调优的问题,即一开始需要考虑如何把代码写的更简洁高效调优(即代码优化),待开发测试完成后,提交任务时综合考量该任务所需的资源(这里涉及到资源调优),上线后是否会出现数据倾斜问题(原创 2020-12-01 21:36:20 · 2388 阅读 · 1 评论 -
Project Tungsten On Spark-内存设计
最近对线上spark作业的GC长达十几分钟(主要是频繁的Young GC)问题进行了一些优化,其中涉及到了spark内存模型的知识点,这里做一个复盘总结。关于spark内存优化不得不提到Project Tungsten(钨丝计划),因为spark的内存模型属于该项目的一个优化点。一、Tungsten起源背景众所周知,Spark是由Scala+Java开发的一种基于内存计算的大数据解决方案,底层运行在JVM上,那么自然而然的会有GC的问题反过来限制Spark的性能,而且绝大多数Spark应用程序的主要瓶原创 2020-11-22 18:45:12 · 479 阅读 · 0 评论 -
资料免费领取-Flink/Spark/Java/Python/Redis/Kafka/CK/ZK/ES/Flume
首先这是一篇资源福利篇,相信会有很多读者和笔者一样,学习一门技术,至少会有20%的时候来寻找好的学习文章或者书籍。之前在后台提供了相关技术的书籍和视频,但经常有读者后台私信反馈链接失效的问题。由于笔者所有的资源均在某网盘中存放,迁移成本较大,所有这里对获取方式进行了改变,流程可能会有所繁琐,但尽可能节省大家的时间,如还是遇到失效问题,请后台私信进行处理解决。这里先给大家汇总下相关资料,如感兴趣,请看文章结尾的获取方式自行领取。Java篇这里提供一套比较全面的Java视频,从基础到完整的项目实例,对于初原创 2020-11-01 19:16:33 · 873 阅读 · 0 评论 -
SparkStreaming优雅关闭剖析
简介在前面的文章中,总结了SparkStreaming入门级的文章,了解到SparkStreaming是一种微批处理的"实时"流技术,在实际场景中,当我们使用SparkStreaming开发好功能并通过测试之后部署到生产环境,那么之后就会7*24不间断执行的,除非出现异常退出。当然SparkStreaming提供了checkpoint和WAL机制能够保证我们的程序再次启动时候不会出现数据丢失的情况。但是需求并不是一成不变的,相信读者们都经历过需求不断迭代的情况,当我们需要迭代逻辑的时候,那么我们如何停止原创 2020-10-20 12:25:25 · 533 阅读 · 2 评论