![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 90
由浅入深学习spark整套体系框架
Garth.
这个作者很懒,什么都没留下…
展开
-
spark数据倾斜优化
数据倾斜是大数据计算中一个最棘手的问题,一旦出现数据倾斜的情况,会十分的影响任务的性能。可能会影响整个任务的进度,甚至可能出现任务 OOM 异常退出。数据倾斜的调优,就是利用各种技术方案解决不同类型的数据倾斜问题,保证 Spark 作业的性能。 数据倾斜的概念: mapreduce程序执行时,大部分节点执行任务完毕,但是有一个或者几个节点运行很慢,导致整个程序的处理时间很长,这可能是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的节点所处理的数据量比其他节点就大很多,.原创 2022-05-04 22:56:00 · 379 阅读 · 0 评论 -
Spark简介
文章目录Spark简介spark发展Spark生态Spark CoreSpark SQLSpark StreamingMLlibGraphXSpark优势支持计算场景多容易上手,支持多种语言社区活跃度高支持多种文件系统的计算可融合性强相对于mapreduce的优势速度快中间输出结果优势执行方式策略开发效率 Spark简介 Spark是基于内存计算的大数据并行计算框架。Spark于2009年诞生于加州大学伯克利分校AMPLab。目前,已经成为Apache软件基金 会旗下的顶级开源项目。Spark是相对于Map原创 2021-09-07 23:00:56 · 411 阅读 · 0 评论