- 博客(4)
- 资源 (5)
- 收藏
- 关注
转载 Spark性能优化指南二——高级篇
1.如何判断发生数据倾斜? 2.为什么会发生数据倾斜? 3.如何定位导致数据倾斜的代码? 4.Spark Web UI哪些参数可以反映数据倾斜? 5.本文对于数据倾斜提出哪些解决方案? 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能
2016-11-27 20:34:08 1009
转载 RDD详解
1、RDD是什么? 2、为什么产生RDD? 3、RDD在spark是什么地位? 4、RDD在spark说是什么作用? 5、如何操作RDD? 一、Spark RDD详解 1、RDD是什么? RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集, 这个数据集的全
2016-11-27 20:19:29 1298
转载 Spark性能优化指南一——基础篇
1.Spark调优有哪些原则? 2.Spark作业原理是什么? 3.怎样进行参数调优? 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark
2016-11-27 20:13:56 2493
原创 Spark1.6学习-RDD
最近开始学习spark的的东西,在学习之前可以去学习一些scala的,毕竟源码是scala的,有些东西操作习惯是从scala中扩展出来的。 下面切入正题 可以参考,下面的官方文档 http://spark.apache.org/docs/1.6.0/programming-guide.html#resilient-distributed-datasets-rdds RDDs(Resil
2016-11-24 20:08:35 794
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人