![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 69
qq_38151176
这个作者很懒,什么都没留下…
展开
-
不会的问题总结---来自面经
字节跳动跑spark的过程中当某个节点压力过大,怎么调优spark shuffle 本地化为什么要划分stagespark任务出问题,怎么定位spark shuffle了解吗,说一下,知道shuffle service吗spark 的joinMR 过程中有几次排序过程 4hive三级分区怎么解决小文件问题解决小文件的问题,首选方案就是 “hive合并小文件”。可以根据如下思路去解决:方式一:对已有的数据进行定时或实时的小文件合并方式二:在生成小文件前,进行相关的配置合并来预防方式三原创 2022-05-09 21:32:55 · 555 阅读 · 0 评论 -
Spark 常见报错问题汇总
引用来自https://blog.csdn.net/ZYC88888/article/details/78438068转载 2022-05-07 16:15:49 · 153 阅读 · 0 评论 -
Spark面试题
作者:蓦_然链接:https://www.nowcoder.com/discuss/929016?channel=-1&source_id=profile_follow_post_nctrack来源:牛客网Spark面试题(约9.8w字)Spark的任务执行流程Spark的运行流程Spark的作业运行流程是怎么样的?Spark的特点Spark源码中的任务调度Spark作业调度Spark的架构Spark的使用场景Spark on standalone模型、YARN架构模型(画架原创 2022-05-04 15:34:09 · 913 阅读 · 0 评论 -
Spark面试题2
Spark join的分类当前SparkSQL支持三种Join算法:shuffle hash join、broadcast hash join以及sort merge join。Hash Join 采用hash join算法,整个过程会经历三步:确定Build Table以及Probe Table:Build Table使用join key构建Hash Table,而Probe Table使用join key进行探测,探测成功就可以join在一起。通常情况下,小表会作为Build Table,大表原创 2022-05-04 15:33:29 · 840 阅读 · 0 评论 -
10亿数据找到前100大的数(Top K问题)
Top K问题在大规模数据处理中,经常需要处理Top K问题:在乱序数据中找到前K个数据。例如在海量搜索结果中找到权重最高的前K个结果。针对Top K类问题,通常最好的方案是使用分治 + 小顶堆。即先将数据集用Hash方法拆解成多个小数据集进行分治,然后用小顶堆在每个数据集中找到最大的前K个数,最后在所有小数据集的Top K数中通过系统排序找到最终的Top K个数。问题描述在10亿行浮点数的文件中找到最大的前100个数字。为后续计算复杂度,我们记n数据总长度,K为需要取出的最大值的个数。思路一:原创 2022-04-22 15:02:46 · 1418 阅读 · 0 评论 -
Spark内存管理模型
原创 2022-04-21 10:36:54 · 117 阅读 · 0 评论 -
Spark 容错
1.driver宕机(1)如果job运行在client:程序直接挂了(2)如果job运行在cluster:-》spark on standalone/mesos:通过spark-submit的参数–supervise可以指定当driver宕机的时候,在其他的节点上重新恢复-》spark on yarn:自动恢复四次2.executor宕机比如executor进程所在机器(worker)宕机、Executor和Driver之间通信超时。则Driver直接把坏掉的executor从Driver列表中原创 2021-12-22 14:21:11 · 1085 阅读 · 0 评论 -
Spark——shuffing
spark的Shuffle有Hash Shuffle和Sort Shuffle两种1.发展史在Spark 1.2以前,默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非常严重的弊端,就是会产生大量的中间磁盘文件,进而由大量的磁盘IO操作影响了性能。因此在Spark 1.2以后的版本中,默认的ShuffleManager改成了SortShuffleManager。SortShuffleManager相较于Has原创 2021-12-21 20:07:33 · 1493 阅读 · 0 评论 -
Spark简记
1.spark与yarn的对比ApplicationMAnage在spark中叫做driverAM向RM申请的是executor资源,分配executor之后由driver来管理executor是一个进程,里面含有很有的task,每一个task是一个线程【注】1.executor伴随整个Application的生命周期线程池模式,省去进程频繁启停的开销2.MR有什么问题启动耗时:MR : map进程,reduce进程spark: executor进程,10个线程:8 map task(线原创 2021-12-12 19:18:28 · 1310 阅读 · 0 评论 -
Spark
yarn Cluster 与yarn Client的区别:S p a r k 的 资 源 管 理 组 件:Yarn(通用)– Master/Slave结构• RM:全局资源管理器,负责系统的资源管理和分配• NM:每个节点上的资源和任务管理器• AM:每个应用程序都有一个,负责任务调度和监视,并与RM调度器协商为任务获取资源Standalone(Spark自带)– Master/Slave结构• Master:类似Yarn中的RM• Worker:类似Yarn中的NMS p a r原创 2021-12-12 19:56:22 · 144 阅读 · 0 评论 -
Spark数据倾斜问题+解决方案
1、数据倾斜数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于 其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈数据倾斜俩大直接致命后果1)数据倾斜直接会导致一种情况:Out Of Memory2)运行速度慢主要是发生在Shuffle阶段。同样Key的数据条数太多了。导致了某个key(下图中的80亿条)所在的Task数 据量太大了。远远超过其他Task所处理的数据量一个经验结论是:一般情况下,OOM的原因都是数据倾斜2、如原创 2021-12-12 20:50:11 · 6217 阅读 · 0 评论