spark
文章平均质量分 63
sunhaoning
这个作者很懒,什么都没留下…
展开
-
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速转载 2017-03-19 09:34:32 · 283 阅读 · 0 评论 -
[解决]spark提交任务:java.net.UnknownHostException: ns1
在搭建好spark运行环境后,首次提交spark任务时,提示:java.net.UnknownHostException: ns1。原因是hdfs集群配置了HA,spark无法识别节点的别名。解决方法如下:1.复制Hadoop目录下etc/hadoop中的hdfs-site.xml和core-site.xml文件到spark的conf/目录下;2.将sp原创 2017-03-15 08:33:17 · 5503 阅读 · 0 评论 -
Spark共享变量(Broadcast Variable和Accumulator)
多个task想要共享某个变量,Spark为此提供了两个共享变量,一种是Broadcast Variable(广播变量),另一种是Accumulator(累加变量)。Broadcast Variable会将使用到的变量,仅仅为每个节点拷贝一份,更大的用处是优化性能,减少网络传输以及内存消耗。Accumulator则可以让多个task共同操作一份变量,主要可以进行累加操作。Broadcas原创 2017-05-05 10:05:25 · 784 阅读 · 0 评论 -
Spark基础transformation操作实例(Scala版)
1.map算子def map() { val conf = new SparkConf() .setAppName("map") .setMaster("local") val sc = new SparkContext(conf) val numbers = Array(1,2,3,4,5) val n原创 2017-04-23 19:08:38 · 413 阅读 · 0 评论 -
Spark性能优化指南——高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据转载 2017-07-21 09:30:30 · 197 阅读 · 0 评论 -
图解Spark内核架构
1. 假设现在有一台提交spark应用的机器,自己编写的应用程序在spark中称为Application,通过spark-submit结合shell提交Application。2. 提交之后会在本地客户端启动一个进程叫做Driver,spark-submit使用standalone模式提交,会通过反射的方式,创建和构造一个DriverActor进程。3. Driver进程会先构造Spark原创 2017-05-01 11:03:09 · 408 阅读 · 0 评论 -
Spark基础transformation操作实例(Java版)
1.map算子任何类型的RDD都可以调用map算子;在java中,map算子接收的参数是Function对象,在Function中,需要设置第二个泛型类型为返回的新元素的类型;同时,call()方法的返回类型也需要与第二个泛型的返回类型一致。在call()方法中,对原始RDD中的每一个元素进行各种处理和计算,并返回一个新的元素,所有新的元素组成一个新的RDD。private static原创 2017-04-23 17:21:35 · 1274 阅读 · 0 评论 -
spark partitioner使用技巧
spark partitioner使用技巧以下源码分析基于Spark-1.5.2在Spark的PairRDDFunctions,OrderedRDDFunctions这两个类中,都会用到RDD的partitioner信息.具体使用到的partitioner的方法如下:combineByKeyaggregateByKeygroupByKeyreduceByKeycog转载 2017-09-03 21:40:46 · 448 阅读 · 0 评论 -
RDD转换为DataFrame案例
文件students.txt中内容如下:1,leo,172,marry,173,jack,184,tom,191. 使用反射方式将RDD转换为DataFrameJava代码如下:public class RDD2DataFrameReclection { public static void main(String[] args) { SparkConf c原创 2017-08-15 20:01:38 · 1642 阅读 · 0 评论