Spark
文章平均质量分 87
小学僧来啦
这个作者很懒,什么都没留下…
展开
-
Spark Master\Worker、Driver\Executor、Job\Stage\Task等概念与关系
@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言https://blog.csdn.net/hongmofang10/article/details/84587262https://blog.csdn.net/mys_35088/article/details/80864092?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefau原创 2021-08-17 17:15:26 · 1341 阅读 · 0 评论 -
Spark on Yarn用执行流程图解(包含stage流程)
@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言原创 2021-08-11 16:44:25 · 4722 阅读 · 0 评论 -
Spark RDD等中cache()和persist()区别及持久化级别、策略选择
@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言原创 2021-08-02 16:39:03 · 473 阅读 · 0 评论 -
Spark DataFrame中insertInto()与saveAsTable()区别及动态分区插入hive表使用设置
@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言insertInto()saveAsTable()动态分区参数设置动态分区代码实现前言在spark应用开发中,会经常需要将数据清洗后的结果,插入HIVE表中。而针对数据落表,官方提供了几种插入方式,具体有insertInto,saveAsTable,调用spark sql。下面我们一一讲解他们的区别。insertInto()保存DataFra原创 2021-04-28 10:18:30 · 10071 阅读 · 5 评论 -
Spark DataFrame中na.drop()、drop()、filter(col.isNotNull())、filter(col.isNull())区别
@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录前言前言awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,比如数组、函数等,这是它和C语言的相同之处,灵活性原创 2021-04-13 10:24:51 · 4353 阅读 · 0 评论 -
Hive表小文件治理方案
@Date : 2020-04-23@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058Hive小文件治理方案方案1方案2方案1方案2原创 2020-04-23 17:10:15 · 1478 阅读 · 2 评论 -
Spark算子分类详解
@Date : 2019-07-12@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058[TOC]0 算子常见分类从大方向来说,Spark算子大致可以分为以下两类:Transformation变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。Transformation 操...原创 2019-07-12 19:33:41 · 509 阅读 · 0 评论 -
Spark-streaming kafka数据接收两种方式
@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录1 Receiver-based Approach2 Direct Approach (No Receivers)1 Receiver-based Approachimport org.apache.spark.streaming.kafka._ ...原创 2018-10-14 21:55:41 · 365 阅读 · 0 评论 -
Spark的join实现的3种方式(与Hive中的join对比)
@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录1 Spark的join与Hive的join对比1.1 数据准备1.2 Hive的join、left outer join、right outer join1.3 Spark的join、leftOuterJoin、rightOuterJoin2 Spar...转载 2018-10-14 21:54:51 · 2305 阅读 · 0 评论 -
Spark算子groupbykey与reducebykey区别
@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录0 算子reducebykey1 算子groupbykey0 算子reducebykeyreduceByKey,相较于普通的shuffle操作(比如groupByKey),它的一个特点,就是说,会进行map端的本地聚合。对map端给下个stage每...原创 2018-10-14 21:53:42 · 662 阅读 · 0 评论 -
Spark的shuffle过程详解
@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录0 hadoop的shuffle与spark的shuffle的简单比较1 spark的shuffle1.1 shuffle write1.1.1 第一种方法1.1.2 第二种方法:FileConsolidation方法1.2 shuffle reade1...原创 2018-10-14 21:49:27 · 630 阅读 · 0 评论 -
Spark Streaming与Kafka数据一致性
@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058[TOC]当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件:输入的数据来自可靠的数据源和可靠的接收器;应用程序的metadata被app...原创 2018-10-14 21:37:04 · 1282 阅读 · 0 评论 -
Spark原理框架和作业执行流程
@Author : Spinach | GHB@Link : http://blog.csdn.net/bocai8058文章目录0 Hadoop与Spark的对比关系1 Spark原理框架1.1 框架1.2 相关术语解释1.3 RDD1.3.1 窄依赖与宽依赖1.3.2 DAG(有向无环图)与DAGScheduler(有向无环图调度器)1.3.3 Transformation函数...原创 2018-10-14 21:36:07 · 807 阅读 · 0 评论