重拾Spark
文章平均质量分 86
inet_ygssoftware
西南大学毕业 在各种大厂游荡 也是大厂中的工具人 各种架构设计 工具类封装 开源组件分享 职业生涯中都接触和参与其中
展开
-
Spark 之 故障排除(二)
Spark 之 故障排除(二)这是我参与更文挑战的第12天,活动详情查看:更文挑战故障排除四:解决算子函数返回NULL导致的问题在一些算子函数里,需要我们有一个返回值,但是在一些情况下我们不希望有返回值,此时我们如果直接返回NULL,会报错,例如Scala.Math(NULL)异常。如果你遇到某些情况,不希望有返回值,那么可以通过下述方式解决:返回特殊值,不返回NULL,例如“-1”;在通过算子获取到了一个RDD之后,可以对这个RDD执行filter操作,进行数据过滤,将数值为-1的数据给过原创 2021-06-14 01:00:20 · 26742 阅读 · 1 评论 -
Spark 之 解决数据倾斜(一)
介绍Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。例如,reduce点一共要处理100万条数据,第一个和第二个task分别被分配到了1万条数据,计算5分钟内完成,第三个task分配到了98万数据,此时第三个task可能需要10个小时完成,这使得整个Spark作业需要10个小时才能运行完成,这就是数据倾斜所带来的后果。注意,要区分开数据倾斜与数据量过量这两种情况,数据倾斜是指少数task被分配了绝大原创 2021-06-14 00:56:25 · 26733 阅读 · 0 评论 -
Spark 系列(一)—— Spark 简介
Spark 系列(一)—— Spark 简介一、简介Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶级项目。相对于 MapReduce 的批处理计算,Spark 可以带来上百倍的性能提升,因此它成为继 MapReduce 之后,最为广泛使用的分布式计算框架。二、特点Apache Spark 具有以下特点:使用先进的 DAG 调度程序,查询优化器和物理执行引擎,以实现性能上的保证;多语转载 2021-06-08 00:34:39 · 31380 阅读 · 0 评论