04大数据-Spark
廖秋林
这个作者很懒,什么都没留下…
展开
-
Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系
作者:王燚光链接:http://www.zhihu.com/question/33270495/answer/93424104来源:知乎梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spa转载 2017-10-10 17:43:23 · 241 阅读 · 0 评论 -
一、Spark性能优化:开发调优篇
1、前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的转载 2017-10-10 17:50:29 · 315 阅读 · 0 评论 -
三、Spark性能优化:数据倾斜调优
Spark性能优化:数据倾斜调优 转载 2016年06月01日 15:36:13 4566 0转载 2017-10-10 17:54:42 · 298 阅读 · 0 评论 -
四、Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因转载 2017-10-10 17:55:54 · 294 阅读 · 0 评论 -
二、Spark性能优化:资源调优篇
Spark性能优化:资源调优篇转载 2017-10-10 17:53:07 · 215 阅读 · 0 评论 -
SparkStreaming操作Kafka
Kafka为一个分布式的消息队列,spark流操作kafka有两种方式:一种是利用接收器(receiver)和kafaka的高层API实现。一种是不利用接收器,直接用kafka底层的API来实现(spark1.3以后引入)。 Receiver方式基于Receiver方式实现会利用Kakfa的高层消费API,和所有的其他Receivers一样,接受到的数据会保存到excutors中,然后由转载 2017-12-14 14:36:38 · 2381 阅读 · 0 评论 -
spark.pom+assembly
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven...原创 2018-04-02 09:30:48 · 336 阅读 · 0 评论