spark
挨踢正能量
每天进步一点点!
展开
-
1.spark运行架构
1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:Spark中的Driver即运行上述Application的main()函数并且创建SparkCon转载 2018-01-15 19:46:08 · 395 阅读 · 0 评论 -
11.Spark性能调优之资源分配
性能优化王道就是给更多资源!机器更多了,CPU更多了,内存更多了,性能和速度上的提升,是显而易见的。基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的spark作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这个基础之上,如果说你的spark作业,能够分配的资源达到了你的能力范围的顶端之后,无法再分配更多的资源了,公司资源有限;那么才是考虑...转载 2018-06-10 23:22:13 · 293 阅读 · 0 评论 -
10.spark executor
spark executorExecutor是spark任务(task)的执行单元,运行在worker上,但是不等同于worker,实际上它是一组计算资源(cpu核心、memory)的集合。一个worker上的memory、cpu由多个executor共同分摊。 spark.executor.cores:顾名思义这个参数是用来指定executor的cpu内核个数,分配更多的内核意味着executo...转载 2018-06-10 23:21:03 · 5259 阅读 · 0 评论 -
9.spark 指定相关的参数配置 num-executor executor-memory executor-cores
num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作业的运行速度是非常慢的。参数调优建议:每个Spa...转载 2018-06-10 23:19:43 · 1249 阅读 · 0 评论 -
8.spark 体验点滴- executor 数量 和task 并行数
一.指定spark executor 数量的公式executor 数量 = spark.cores.max/spark.executor.coresspark.cores.max 是指你的spark程序需要的总核数spark.executor.cores 是指每个executor需要的核数二.指定并行的task数量spark.default.parallelism参数说明:该参数用于设置每个st...转载 2018-06-10 22:55:54 · 4429 阅读 · 0 评论 -
7.spark mapPartition方法与map方法的区别
rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。 两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。 假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函数会被调用10次;而使用mapPartitions方法的话,其输入函数会只会被调用3次,...转载 2018-06-10 22:54:03 · 4601 阅读 · 1 评论 -
6.Spark综合练习--二次排序、TopN
在此练习之前,要了解二次排序的使用。java代码示例package secondary;import scala.math.Ordered;import java.io.Serializable;/** * Created by Administrator on 2018/1/18. */public class SecondarySortKey implements O原创 2018-01-21 18:58:58 · 407 阅读 · 0 评论 -
5.Spark调优总结
原创 2018-01-17 20:51:19 · 147 阅读 · 0 评论 -
4.Spark性能优化指南——高级篇
Spark性能优化指南——高级篇前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方转载 2018-01-17 19:44:45 · 189 阅读 · 0 评论 -
3.Spark性能优化指南——基础篇
Spark性能优化指南——基础篇前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简转载 2018-01-17 19:35:05 · 172 阅读 · 0 评论 -
2.理解Spark的核心RDD
与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Unified Programming Abstraction)。这正是Spark这朵小火花让人着迷的地方。要转载 2018-01-15 20:03:14 · 300 阅读 · 0 评论 -
Spark Streaming + Kafka 入门实例
初学Spark Streaming和Kafka,直接从网上找个例子入门,大致的流程:有日志数据源源不断地进入kafka,我们用一个spark streaming程序从kafka中消费日志数据,这些日志是一个字符串,然后将这些字符串用空格分割开,实时计算每一个单词出现的次数。 部署安装zookeeper:1、官网下载zookeeper:http://mirror.metrocast.ne...转载 2018-09-26 16:37:41 · 975 阅读 · 0 评论