spark
文章平均质量分 62
dinl_vin
这个作者很懒,什么都没留下…
展开
-
Spark : 多线程提交优化多Job任务
介绍在日常业务中,spark常见的就是通过路径通配符*,{}等方式一次读取多个文件,一次批处理将这些文件做一个大job写入Hive或者ODPS,笔者最近在用Spark读取Hudi的文件时候发现了一个诡异的文件丢失Bug:一次读入所有文件夹会有部分文件夹丢失,一开始怀疑是这部分文件夹本身有损坏,但是用spark单独读取该文件夹的时候发现数据又不会丢失.既然一次job会丢数据,那么不妨按文件夹拆分job,每个job执行单个任务,常见就是for循环去遍历所有文件夹挨个执行,但是效率过低需要六个小时,在资源原创 2021-11-19 13:57:37 · 1878 阅读 · 0 评论 -
spark配置速查
配置项五花八门?那就整理一下!* CPU相关1. spark.cores.max集群分配给spark的最大CPU数2. spark.executor.coresExecutor内划分的CPU- Core,一般是2~4个比较合适3.spark.task.cpus执行每个Task的CPU数量,一般都是1不用动4. spark.default.parallelism参数说明:该参数用于设置每个stage的默认task数量。这个参数极为重要,如果不设置可能会直接影响你的Spark作业性能。参数原创 2021-09-02 15:47:54 · 859 阅读 · 0 评论 -
Spark广播变量
Spark广播变量1. 什么是广播变量?广播变量(Boardcast)是Spark中应对shuffle造成的性能变慢的有效克制手段,它是一种分发机制,一次性封装目标数据结构,以Excutor为粒度做数据分发。数据分发数=Excutor数1.1 如何理解广播变量需求: WordCount升级版,统计所有文件里,指定单词的数量。WordCount V1.0val dict = List("spark","java","scala","python")val words = spark.spar原创 2021-08-24 17:58:00 · 1398 阅读 · 0 评论 -
Spark 与 OSS
Spark 与 OSS前言因为公司使用的是阿里云全家桶,OSS基本上就是唯一的神,取代了HDFS成为统一文件系统,n多的数据也通过阿里亲儿子Flink接到了数仓,但是因为上报方偶尔一波离谱数据,似乎是在做压测?而我们Flink开发同学图省事没有做错误处理,导致flink大姨妈的时候,重启消费数据重复(这里也看得出来所谓的Exact-Once也不是完全端到端精确,假如sink跟source没有特殊处理的话还是有重复的).spark: 你们要抓的是鲁迅flink,关我周树人spark什么事?,流批不分家原创 2021-08-20 15:08:09 · 957 阅读 · 0 评论