spark
向往的生活Life
分享
展开
-
spark之RDD
Spark revolves around the concept of a resilient distributed dataset (RDD), which is a fault-tolerant collection of elements that can be operated on in parallel. There are two ways to create RDDs:原创 2016-11-04 14:25:59 · 704 阅读 · 0 评论 -
SparkSQL根据条件合并多条数据(测试)
SparkSQL合并多条数据测试,完整版原创 2017-12-12 17:22:44 · 4296 阅读 · 0 评论 -
Spark2.0源码之4_Worker
Spark2.0源码之4_Worker原创 2017-07-05 18:32:14 · 604 阅读 · 0 评论 -
spark2.1.0自定义累加器AccumulatorV2的使用
spark2.1.0自定义累加器AccumulatorV2的使用原创 2017-01-16 10:35:38 · 7515 阅读 · 0 评论 -
Spark2.0源码之3_Master
Spark官网上有一张集群交互图部署完spark编译包之后,我们执行spark脚本./sbin/start-all.sh,脚本中又调用了其他脚本,就不说这部分内容了,最终JVM会加载Master类。Master的main函数:private[deploy] object Master extends Loggi原创 2016-12-07 14:06:22 · 846 阅读 · 0 评论 -
spark-2.1.0安装
spark-2.1.0安装原创 2017-01-16 09:59:28 · 1183 阅读 · 1 评论 -
Spark相关参数
应用配置spark.app.namespark任务应用名称,在SparkUI界面以及日志数据中使用spark.driver.coresspark,driver进程使用的CPU core数量,只有在cluster模式下生效spark.driver.maxResultSizespark设置driver所有partitions序列化结果最大大小(最大1G),如果超过这个值,会占用原创 2016-11-30 10:22:38 · 2979 阅读 · 0 评论 -
Spark2.0源码之2_TorrentBroadcast
package org.apache.spark.broadcastimport java.io._import java.nio.ByteBufferimport java.util.zip.Adler32import scala.collection.JavaConverters._import scala.reflect.ClassTagimport scala.util.R原创 2016-12-06 15:17:57 · 643 阅读 · 0 评论 -
Spark2.0源码之1_Broadcast
通过Spark源码中的注释信息理解Spark内核源码。package org.apache.spark.broadcastimport java.io.Serializableimport scala.reflect.ClassTagimport org.apache.spark.SparkExceptionimport org.apache.spark.intern原创 2016-12-06 14:58:29 · 804 阅读 · 0 评论 -
Spark Standalone模式部署
Spark可以在Mesos或者YARN集群管理平台运行,也可以使用spark的standalone(独立)部署模式,主要用于本机测试用。安装部署Spark需要是编译后的版本,可以到spark官网下载http://spark.apache.org/downloads.html解压开(部署之前需要准备JAVA环境,配置JAVA_HOME)运行脚本:./sbin/start-mast原创 2016-11-23 15:35:07 · 828 阅读 · 0 评论 -
Spark数据倾斜调优
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象 1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三转载 2016-11-20 11:04:52 · 526 阅读 · 0 评论 -
Hive on Spark源码分析
Hive on Spark源码分析原创 2017-12-18 15:43:37 · 2075 阅读 · 0 评论