大数据
sixgold
北邮在读研究生,目前是推荐算法方向~
展开
-
Spark 常用Shuffle算子汇总
Spark Shuffle算子汇总一、去重二、聚合三、排序四、重分区五、集合或者表操作我们在写spark时候,shuffle算子我们格外小心,因为shuffle有时候会造成数据倾斜问题,那么我们在编写代码时,要十分清楚哪些是shuffle算子,在后续排查问题时能够快速定位。一、去重def distinct()def distinct(numPartitions: Int)二、聚合de...原创 2020-04-20 15:40:21 · 1944 阅读 · 0 评论 -
Spark性能优化指南—数据倾斜问题调优常用思路
Spark性能优化指南——高级篇数据倾斜发生时的现象数据倾斜发生的原理数据倾斜的解决方案1.过滤少数导致倾斜的key2.提高shuffle操作的并行度3.两阶段聚合(局部聚合+全局聚合)4.将reduce join转为map join5.采样倾斜key并分拆join操作6.使用随机前缀和扩容RDD进行joinspark处理数据时候,数据倾斜问题是经常发生的,如何缓解数据倾斜对于spark运算效率...原创 2020-04-19 21:54:48 · 164 阅读 · 0 评论 -
Spark Join操作 图文例子说明
JOIN在Spark Core中的使用Inner joinleft outer joinright outer joinfull outer joinInner joininner join,只返回左右都匹配上的// 启动spark-shell,定义两个rdd,做join操作[hadoop@hadoop01 ~]$ spark-shell --master local[2]scala&g...原创 2020-04-18 13:57:04 · 728 阅读 · 0 评论 -
Spark基础性能调优-开发调优,资源调优
Spark基础性能调优开发调优原则一:避免创建重复的RDD,尽可能复用同一个RDD原则二:对多次使用的RDD进行持久化尽量避免使用shuffle类算子原则四:使用预聚合的shuffle操作原则五:使用高性能的算子资源调优num-executorsexecutor-memoryexecutor-cores数据倾斜调优做推荐算法相关的工作时,数据量是非常大的,我们学习Spark就很有必要。不同的写法...原创 2020-04-18 12:06:04 · 179 阅读 · 0 评论 -
Spark算子调优—基本的算子调优
Spark常见RDD算子调优算子调优一:mapPartitions算子调优二:foreachPartition优化数据库操作算子调优三:filter与coalesce的配合使用算子调优四:repartition解决SparkSQL低并行度问题算子调优五:reduceByKey本地聚合算子调优一:mapPartitions普通的map算子对RDD中的每一个元素进行操作,而mapPartition...原创 2020-04-18 00:10:43 · 1154 阅读 · 0 评论 -
SparkSQL数据读取 简单操作使用 DataFrames相关操作
目录一 认识SparkSQL1.1 什么是SparkSQL1.2 SparkSQL的作用1.3 运行原理1.4 特点1.5 SparkSession1.6 DataFrames二 RDD转换为Dataframe方式一:通过 case class 创建 DataFrames(反射)方式二:通过 structType 创建 DataFrames(编程接口)方式三:通过 json 文件创建 DataF...原创 2020-04-16 18:35:16 · 393 阅读 · 0 评论 -
大数据如何找中位数,TopN,大体思路(通用)。
文章目录1.从10亿个数据(int型占据4B)中找中位数,内存限制为1GB2.从10亿数中选取前1000大的数字从10亿个数据(int型占据4B)中找中位数,内存限制为1GB不可能一次性把数据全部加载到内存中,再使用快速排序算法,因为10亿*4B大约为4GB,内存不够可以一次性读入1GB的数据(分10次读取),然后对读入的1GB数据按照最高位即第32位的值进行分类并写入文件,如果最高位是...原创 2020-04-15 15:59:53 · 2605 阅读 · 0 评论