大数据之Spark
文章平均质量分 91
学习 总结 笔记
白眼黑刺猬
技术分享 ,线上线下授课
微信 17710299606
展开
-
spark封神之路(1)-spark简介
1Spark简介Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache的顶级项目,2014年5月发布spark1.0,2016年7月发布spark2.0,2020年6月18日发布spark3.0.0快如闪电的统一分析引擎 分析处理海量的数据MapReduce:运算模型单一[map(落地)shufflereduce],和磁盘频繁的交...原创 2021-06-08 13:09:52 · 505 阅读 · 0 评论 -
spark原理系列-Shuffle实现原理
什么时候需要 shuffle writer假如我们有个 spark job 依赖关系如下我们抽象出来其中的rdd和依赖关系:E <-------n------, C <--n---D---n-----F--s---, A <-------s------ B <--n----`-- G对应的划分后的RDD结构为:最终我们得到了整个执行过程:中间就涉及到sh...原创 2021-05-16 15:04:11 · 569 阅读 · 0 评论 -
Spark 的join 什么时候是宽依赖什么时候是窄依赖
1准备数据spark-shell --master spark://linux01:7077 --executor-meg --total-executor-cores 4 val sc: SparkContext = SparkUtils.getSc // 模拟数据产生 val rdd1 = sc.parallelize(Array( (1, "张三1"), (1, "张三2"), (2, "李四"), (3, "王五").原创 2021-04-18 10:41:12 · 831 阅读 · 0 评论 -
大数据相关开源项目汇总
调度与管理服务Azkaban是一款基于Java编写的任务调度系统任务调度,来自LinkedIn公司,用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序,提供友好的Web用户界面来维护和跟踪用户的工作流程。YARN是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,解决了旧MapReduce框架的性能瓶颈。它的基本思想是把资源管理和作业调度/监控的功能分割到单独的守护进程。Mesos是由加州大学伯克利分校的AMPLab...原创 2020-12-07 14:24:06 · 2555 阅读 · 0 评论 -
多易教育: Spark内存管理之堆内/堆外内存前世今生详解
1.前言在执行Spark的应用程序时,Spark集群会启动Driver和Executor两种JVM进程,前者为主控进程,负责创建Spark上下文,提交Spark作业(Job),并将作业转化为计算任务(Task),在各个Executor进程间协调任务的调度,后者负责在工作节点上执行具体的计算任务,并将结果返回给Driver,同时为需要持久化的RDD提供存储功能。由于Driver的内存管理相对来说较为简单,本文主要对Executor的内存管理进行分析,下文中的Spark内存均特指Executor的内存。原创 2020-06-21 22:04:50 · 3469 阅读 · 1 评论 -
多易教育:一文吃透数据倾斜
前言本文是介绍的是开发spark极其核心的地方,可以说懂得解决spark数据倾斜是区分一个spark工程师是否足够专业的标准,在面试中以及实际开发中,几乎天天面临的都是这个问题。原理以及现象先来解释一下,出现什么现象的时候我们认定他为数据倾斜,以及他数据倾斜发生的原理是什么?比如一个spark任务中,绝多数task任务运行速度很快,但是就是有那么几个task任务运行极其缓慢,慢慢的可能就接着报内存溢出的问题了,那么这个时候我们就可以认定他是数据倾斜了。接下来说一下发生数据倾斜的底层理论,原创 2020-06-21 22:00:16 · 3650 阅读 · 0 评论 -
大数据之数据倾斜剖析
1.1绪论数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。1.2 郑重声明话题比较大,技术要求也比较高,笔者尽最大的能力来写出自己的理解,写的不对和不好的地方大家一起交流。有些例子不是特别严谨,一些小细节对文章理解没有影响,不要太在意。(比如我在算机器内存的时候,就不把Hadoop自身的进程算到使用内存中).原创 2020-06-05 09:01:14 · 3125 阅读 · 0 评论 -
彻底搞定-SPARK ON YARN
/ 为什么需要 Yarn? /Yarn的全称是Yet Anther Resource Negotiator(另一种资源协商者)。它作为 Hadoop的一个组件,官方对它的定义是一个工作调度和集群资源管理的框架。Yarn最早出现于Hadoop 0.23分支中,0.23分支是一个实验性分支,之后经过了几次迭代,最后发布于2014年6月的0.23.11版...原创 2020-03-15 22:07:46 · 3030 阅读 · 0 评论 -
彻底搞定-SPARK RDD
1 Spark的RDD提到Spark必说RDD,RDD是Spark的核心,如果没有对RDD的深入理解,是很难写好spark程序的,但是网上对RDD的解释一般都属于人云亦云、鹦鹉学舌,基本都没有加入自己的理解。本文基于Spark原创作者的论文,对Spark的核心概念RDD做一个初步的探讨,希望能帮助初学的球友们快速入门。《Resilient Distributed Datasets: A Fau...原创 2020-03-15 22:04:53 · 1955 阅读 · 0 评论 -
presto技术内幕
简介Presto是一个facebook开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。presto的架构由关系型数据库的架构演化而来。presto之所以能在各个内存计算型数据库中脱颖而出,在于以下几点:清晰的架构,是一个能够独立运行的系统,不依赖于任何其他外部系统。例如调度,presto自身提供了对集群的监控,可以根据监控信息完成调度。 简单的数据结构,列式存...原创 2020-03-12 11:13:20 · 3288 阅读 · 0 评论 -
sparkstreaming 消费Kafka写入MYSQL代码示例
/** * @author HANGGE 2020/3/10 21:58\消费kafka中的数据 */object Demo1 { Logger.getLogger("org").setLevel(Level.ERROR) System.setProperty("HADOOP_USER_NAME", "root") def main(args: Array[String]...原创 2020-03-10 22:51:30 · 3791 阅读 · 0 评论 -
presto自定义函数(UDF
创建mv项目添加依赖<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.ap...原创 2020-03-09 13:55:52 · 3343 阅读 · 0 评论 -
springboot整合presto实现多数据源操作数据
pom文件<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.0.3.RELEASE</...原创 2020-03-04 21:48:38 · 4736 阅读 · 0 评论