Spark
文章平均质量分 60
Spark
HanhahnaH
此人不懒,依然什么都没有写
展开
-
Spark scala如何本地运行
运行一个spark任务需要打包任务并上传到spark集群上运行,但是往往远端运行时间较长、众多处理器的日志收集困难,导致spark任务的调试时间成本很高,几个小时的等待可能换来的只是一个低级的错误。Apache Spark是一个开源的大数据处理框架,它提供了一个接口用于编程大规模分布式计算,且提供了很多高级工具,包括支持SQL查询、流数据处理、机器学习和图计算等。那么如何不提交远端Spark集群,在本地就像调试Java代码一样调试Spark scala。原创 2024-02-06 17:29:24 · 857 阅读 · 0 评论 -
Spark如何用repartition来提升执行效率
在这种情况下,Spark会尽量保证每个分区中的数据量大致相等,但并不能保证每个分区中的数据在业务逻辑上的均匀分布。也就是说,如果你的数据在某个特定的列上有特定的分布模式,那么在重新分区后,这种分布模式可能会被打乱。果在调用 repartition 方法时没有指定列,那么Spark会将数据均匀地分布到指定数量的分区中,但具体的分区策略是不确定的。需要注意的是,repartition 操作会引发全量数据的洗牌,可能会消耗大量的计算和I/O资源,因此在使用时需要谨慎考虑。原创 2024-02-02 17:03:50 · 878 阅读 · 0 评论 -
Spark如何用累加器Accumulator收集日志
Spark任务的实际运算是交由众多executor来执行的,如果再执行算子内部打印日志,是需要到对应的executor上才能看到。当不知道对应executor的情况下就需要挨个查询日志,是否不方便。是否有办法可以收集所有executor上的日志内容打印在driver上呢?这样就可以直接在stdout里看到所有日志。原创 2024-01-30 17:00:58 · 553 阅读 · 0 评论 -
Spark性能调优
2.1 增加大数据量位置的repartition数。2.2 增加spark session的超时时间。1 首先可以尝试开大executor的内存分配。原创 2024-01-30 15:24:36 · 639 阅读 · 0 评论 -
Spark报错异常及解决
【代码】Spark常见报错异常及解决。原创 2023-09-22 11:03:39 · 969 阅读 · 0 评论 -
Spark的action和transformation
Spark的action和transformation原创 2021-12-22 17:22:11 · 1145 阅读 · 0 评论