spark
easonworld
这个作者很懒,什么都没留下…
展开
-
spark配置优化
转http://www.csdn.net/article/2015-07-08/2825160【Spark集群并行度】在Spark集群环境下,只有足够高的并行度才能使系统资源得到充分的利用,可以通过修改spark-env.sh来调整Executor的数量和使用资源,Standalone和YARN方式资源的调度管理是不同的。在Standalone模式下:1. 每个节点转载 2016-03-16 11:18:23 · 969 阅读 · 0 评论 -
transient的作用及使用方法
转:http://www.cnblogs.com/lanxuezaipiao/p/3369962.html 1. transient的作用及使用方法 我们都知道一个对象只要实现了Serilizable接口,这个对象就可以被序列化,java的这种序列化模式为开发者提供了很多便利,我们可以不必关系具体序列化的过程,只要这个类实现了Serilizable接口,这个类的所有属性和方法都会自动序列化。转载 2016-04-18 11:05:01 · 3133 阅读 · 1 评论 -
Spark性能优化2
继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spar转载 2016-07-15 19:45:20 · 420 阅读 · 0 评论 -
spark性能优化1
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能转载 2016-07-15 19:46:34 · 446 阅读 · 0 评论 -
spark点滴之map-flatMap~mappartition~sortBY~fold~combinebykey~分区~mvn~scala
map 和 flatMap:通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一:将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本:line oneline two步骤二:在Spark中创建一个RDD来读取转载 2015-10-26 17:45:49 · 1535 阅读 · 0 评论