spark
Losteng
这个作者很懒,什么都没留下…
展开
-
RDD详解
1、RDD是什么?2、为什么产生RDD?3、RDD在spark是什么地位?4、RDD在spark说是什么作用?5、如何操作RDD?一、Spark RDD详解1、RDD是什么?RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集, 这个数据集的全转载 2016-11-27 20:19:29 · 1297 阅读 · 0 评论 -
Spark性能优化指南一——基础篇
1.Spark调优有哪些原则?2.Spark作业原理是什么?3.怎样进行参数调优?前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark转载 2016-11-27 20:13:56 · 2493 阅读 · 0 评论 -
Spark性能优化指南二——高级篇
1.如何判断发生数据倾斜?2.为什么会发生数据倾斜?3.如何定位导致数据倾斜的代码?4.Spark Web UI哪些参数可以反映数据倾斜?5.本文对于数据倾斜提出哪些解决方案?前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能转载 2016-11-27 20:34:08 · 1007 阅读 · 0 评论