Spark
JNSimba
腹有诗书气自华,快叫我长胖一点吧~~~~~
展开
-
【0】Spark源码编译
一直说阅读Spark源码,工作太忙,搁置了很久,今天献上Spark源码编译步骤,是为Spark源码系列的序。 环境准备源码下载在Github上https://github.com/apache/spark下载想要的版本,我下载的是https://github.com/apache/spark/releases/tag/v2.4.3修改POM需要将根目录下的pom.xml文件里面的 maven版本设置程与本地一致的...原创 2020-05-09 17:46:40 · 281 阅读 · 0 评论 -
【论文】Structured Streaming:Apache Spark中处理实时数据的声明式API
引言随着实时数据的日渐普及,企业需要流式计算系统满足可扩展、易用以及易整合进业务系统。Structured Streaming是一个高度抽象的API基于Spark Streaming的经验。Structured Streaming在两点上不同于其他的Streaming API比如Google DataFlow。第一,不同于要求用户构造物理执行计划的API,Structured Streami...转载 2020-02-18 16:05:34 · 918 阅读 · 0 评论 -
RDD的Join
工作中遇到一个问题:在Spark的map阶段要用到Hive中的表中的数据最开始的想法就是预加载,在map阶段之前将表加载到DataFrame中,然后作为map的参数传入因为刚接触Spark,不了解具体执行机制,map阶段是分布式的,所以这样也就是说要将DataFrame传输到其他几台机器,如果Hive表非常大,那么内存带宽就是瓶颈后来看到RDD数据集,作为Spark特有的数据集,想到可原创 2016-04-02 10:14:51 · 2191 阅读 · 0 评论 -
Spark概述
概述:ApacheSpark™ is a fast and general engine for large-scale data processing.如官网所说,Spark是快速处理大规模数据的引擎,对应的Hadoop的MR引擎我们听到的Spark比Hadoop快100倍,其实是比MR快,MR将数据的中间结果写入磁盘,而Spark则是直接写入内存,在一定程度上,加速了程序的处理。原创 2016-08-01 20:41:27 · 921 阅读 · 0 评论 -
RDD的CombineBykey
需要对一个KV类型的RDD按照Key进行分组,以前一直用groupBy,但是这个函数比较耗费内存,会首先进行shuffle,数据量比较大的时候,需要把数据都传输过去,所以比较耗费时间及内存,甚至会直接OOM。CombineBykey在一定程度上优化了groupby,类似于MR中的combine,在shuffle传递之前在map端进行一次合并,这样在数据量很大的时候会减少很多不必要的传输。C原创 2016-10-23 09:43:53 · 1115 阅读 · 0 评论 -
Spark性能优化指南——高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据转载 2016-12-23 22:07:48 · 575 阅读 · 0 评论 -
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速转载 2016-12-23 22:09:26 · 579 阅读 · 0 评论