![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 69
CodeZhuxh
这个作者很懒,什么都没留下…
展开
-
Spark SQL PERCENTILE分析调研
Spark percentile原理https://zhuanlan.zhihu.com/p/340626739https://www.cnblogs.com/myseries/p/10880641.htmlHive percentile采用的是特殊的数据结构,先通过一轮聚合把每个数值出现的次数用元组的形式存储起来,再通过内存中元组的取值排序取到分位值。所以 Hive 需要在 UDAF 的计算中将数据进行压缩或预处理,那么 Mapper 是需要在生成时不断通过聚合计算更新,其内部实现基于 h原创 2021-03-29 19:12:37 · 1864 阅读 · 0 评论 -
Spark SQL distinct分析优化总结
Spark count distinct原理由于distinct过程会导致数据膨胀,导致shuffle、reduce双端数据倾斜,因此distinct算子操作特别慢distinct慢的主要原因:数据膨胀原理:select count(distinct id), count(distinct name) from table_a distinct算子在处理过程中是将distinct后的字段和group by字段共同作为key传入reduce,导致shuffle.原创 2021-03-29 19:07:28 · 6802 阅读 · 7 评论 -
天下武功-唯快不破-Spark
Spark写在前面知识点整理什么是Spark?spark和hadoop作业的区别Spark相对于MR解决了什么问题RDD(弹行分布式数据集):spark参数调优spark开发调优spark常用组件写在前面最近抽时间在看hadoop权威指南以及spark快速大数据分析两本书,整理了一些知识点。需要的请点赞收藏。知识点整理什么是Spark?spark是一个用来实现快速而且通用的集群计算平台。在速度方面,spark拓展了广泛使用的MR计算框架,而且更高效的支持更多计算模型,例如交互式查询和流式处理。原创 2020-07-02 20:43:37 · 303 阅读 · 0 评论