tianyeshiye

天之道,损有余而补不足.人之道,则不然,损不足以奉有余.孰能有余以奉天下?唯有道者...

Mark : SparkSQL Catalyst解析

来源 :阿里Apache Spark 技术中国社区 阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,问答区数个Spark技术同学每日在线答疑,只为营造纯粹的Spark氛围,欢迎加入!钉钉群号:23109202 Catalyst Optimizer是Spa...

2019-04-19 12:43:55

阅读数 2

评论数 0

Spark SQL 查询引擎Catalyst分析

Spark SQL 查询引擎Catalyst分析 Catalyst整体架构图 Catalyst执行流程 catalyst是spark sql的调度核心,遵循传统数据库查询解析步骤,对sql进行解析,转换为逻辑查询计划,物理查询计划,最终转化为Spark的DAG后在执行,下图为Catal...

2019-04-19 09:53:35

阅读数 3

评论数 0

Mark :spark运行逻辑 简单易懂的总结

1.架构 Master 做为整个集群的控制器复负责整个集群的正常运行 Worker 相当于计算节点,接收主节点命令与进行状态汇报。运行一个或多个Executor进程,相当于计算节点 Client 用户提交作业的客户端 Driver 负责控制一个应用的执行,运行Application的main函...

2019-04-19 09:44:33

阅读数 2

评论数 0

Apache Spark 统一内存管理模型详解

本文将对Spark的内存管理模型进行分析,下面的分析全部是基于 ApacheSpark2.2.1 进行的。为了让下面的文章看起来不枯燥,我不打算贴出代码层面的东西。文章仅对统一内存管理模块(UnifiedMemoryManager)进行分析,如对之前的静态内存管理感兴趣,请参阅网上其他文章。 我...

2019-04-12 17:14:04

阅读数 21

评论数 0

Spark core中的cache、persist区别,以及缓存级别详解

概述 本次我们将学习Spark core中的cache操作以及和 persist的区别。首先大家可能想到的是cache到底是什么呢?他有什么作用呢?我们可以带着这两个问题进行下面的学习。 本文结构: 1. cache的产生背景 2. cache的作用 3. 源码解析cache于persist的区...

2019-04-10 17:52:31

阅读数 17

评论数 0

Spark - isEmpty() trap in Spark

Versions:Spark 2.1.0 In general Spark's actions reflects logic implemented in a lot of equivalent methods in programming languages. As an example we...

2019-03-29 09:13:37

阅读数 43

评论数 0

Spark - spark error Mark 待解决

spark运行时,在driver 处抛出异常,不知道什么原因 不能确定是不是网络问题 2019/03/19 18:04:54.114 INFO Driver commanded a shutdown 2019/03/19 18:04:54.126 ERROR Still have 1 re...

2019-03-20 10:57:29

阅读数 10

评论数 0

Spark - Spark中各个角色的JVM参数设置

Driver的JVM参数 -Xmx,-Xmsyarn-client模式 :则默认读取spark-env文件中的SPARK_DRIVER_MEMORY值,-Xmx,-Xms值一样大小;yarn-cluster模式 :则读取的是spark-default.conf文件中的spark.driver....

2019-03-18 13:09:37

阅读数 21

评论数 0

Spark Mark - Spark的位置优先: TaskSetManager 的有效 Locality Levels

在Spark Application Web UI的 Stages tag 上,我们可以看到这个的表格,描述的是某个 stage 的 tasks 的一些信息,其中 Locality Level 一栏的值可以有 PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、...

2019-03-15 12:11:14

阅读数 8

评论数 0

Spark源码分析 - Spark CommitCoordinator 保证数据一致性

概述 Spark 输出数据到 HDFS 时,需要解决如下问题: 由于多个 Task 同时写数据到 HDFS,如何保证要么所有 Task 写的所有文件要么同时对外可见,要么同时对外不可见,即保证数据一致性 同一 Task 可能因为 Speculation 而存在两个完全相同的 Task 实例写...

2019-03-08 18:01:56

阅读数 16

评论数 0

spark - spark-submit启动参数说明

启动参数 /bin/spark-submit --master yarn-cluster --num-executors 100 --executor-memory 6G --executor-cores 4 --driver-memory 1G --conf spark.default.par...

2019-03-07 18:02:12

阅读数 71

评论数 0

经验 - spark中的pipeline机制

问题 如果一个源数据有1亿行, 对这个源数据分别做map()操作和flatMap()操作, 过程是下面描述的那种流程, 为什么? 1 每读1条数据, 顺次执行map()和flatMap(), 再读取下一条; 2 对1亿条数据遍历做完map()后, 然后再重新读取一遍这1亿条数据, 做fla...

2019-03-05 09:02:04

阅读数 55

评论数 0

经验 - spark代码执行过程(Driver , Execute)

我们自己编写了spark代码后;放到集群中一执行,就会出现问题,没有序列化、指定的配置文件不存在、classnotfound等等。这其实很多时候就是因为我们对自己编写的spark代码执行流程的不熟悉导致的,源码阅读可以解决,但源码不是每个人都能看懂或能看进去的,下面我们就来讲一下,我们自己写的sp...

2019-02-26 13:06:02

阅读数 120

评论数 0

*** 重点 *** - 深度剖析Spark分布式执行原理

让代码分布式运行是所有分布式计算框架需要解决的最基本的问题。 Spark是大数据领域中相当火热的计算框架,在大数据分析领域有一统江湖的趋势,网上对于Spark源码分析的文章有很多,但是介绍Spark如何处理代码分布式执行问题的资料少之又少,这也是我撰写文本的目的。 Spark运行在JVM之上,...

2019-02-25 18:34:41

阅读数 13

评论数 0

学习笔记 - RDD、DataFrame、Dataset

共性 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,极端情况下,如果代码里面有创建、转换...

2019-01-23 18:47:34

阅读数 18

评论数 0

学习笔记 --- Kafka Spark Streaming获取Kafka数据 Receiver与Direct的区别

Receiver 使用Kafka的高层次Consumer API来实现 receiver从Kafka中获取的数据都存储在Spark Executor的内存中,然后Spark Streaming启动的job会去处理那些数据 要启用高可靠机制,让数据零丢失,就必须启用Spark Streamin...

2018-12-04 09:43:25

阅读数 88

评论数 0

学习笔记 --- Spark SparkSQL下Parquet中PushDown的实现

PushDown是一种SQL优化方式,通常用在查询。应用场景: 假设通过DataFrame,df.select(a,b,c).filter(by a).filter(by b).select(c).filter(by c)这样的查询,在optimizer阶段,需要合并多个filters(Comb...

2018-12-03 16:22:47

阅读数 23

评论数 0

【Big Data 每日一题20181028】Alluxio简介

 一、Alluxio是什么?         Alluxio是一个基于内存的分布式文件系统,它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件,主要职责是以文件形式在内存或其它存储设施中提供数据的存取服务。         Alluxio的前身为Tachyon。        ...

2018-10-30 21:47:38

阅读数 27

评论数 0

【Big Data 每日一题20181023】

【Big Data 每日一题20181023】

2018-10-23 23:17:27

阅读数 20

评论数 0

【Big Data 每日一题20181022】

【Big Data 每日一题20181022】

2018-10-23 23:16:59

阅读数 26

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭