2016年08月_andyshar

原创 56：Spark中的Tungsten内存和CPU的优化使用

本期内容：1. Tungsten内存分配优化使用2. Tungsten的CPU的优化使用今天聚焦于内存和CPU的优化使用，这是Spark2.0提供的关于执行时的非常大的优化部分。对过去的代码研究，我们会发现，抽象的提高，转过来会变成对CPU和内存的使用。也就是说，抽象提升，会对内存对CPU会有很多不必要的使用，执行很多无谓的没有实际作用的操作。比如面向接口调用，就是使用

2016-08-07 18:45:10 936

原创 55：Spark中的Tungsten内存分配和管理内幕

本期内容1. Tungsten内存分配内幕2. Tungsten内存管理内幕内存分配和管理内幕恭喜Spark2.0发布，今天会看一下2.0的源码。今天会讲下Tungsten内存分配和管理的内幕。Tungsten想要工作，要有数据源和数据结构，这时候会涉及到内存管理，而内存管理也是后续做很多分析和逻辑控制的基础。内存分配我们从内存分配的入口Memory

2016-08-07 18:44:39 1200

原创 54：Spark中的Tungsten-sort Based Shuffle内幕

本期内容：1. Tungsten-sort Based Shuffle原理2. Tungsten-sort Based Shuffle源码ShortShuffleManagerMemoryManagerShuffleExternalSorterTungsten-sort Based Shuffle今天在对钨丝计划思考的基础上，讲解下基于Tungste

2016-08-07 18:44:15 926

原创 53：Spark中Tungsten深度思考

本期内容：1. 关于OS、JVM与大数据2. JVM下的性能优化jvm对分布式天生支持整个Spark分布式系统是建立在分布式jvm基础上的，jvm非常伟大的一点在于把不同机器的计算能力联合起来了，jvm也把不同机器的存储能力连接起来了。jvm是怎么做到这一点的，jvm本身就是一个软件，有自己的通讯方式以及自己的一套协议，在进行java或者scala开发的时候，就

2016-08-07 18:43:30 683

原创 52：Spark中的新解析引擎Catalyst源码中的外部数据源、缓存及其它

本期内容：1. Catalyst中的外部数据源2. Catalyst中的缓存3. 其它外部数据源处理什么叫外部数据源，是SparkSql自己支持的一些文件格式，以及一些自己自定义格式的文件开发。让我们从文件的读取api开始，可以看到最终会创建一个DataFrame，当中比较关键的是relation方法。首先，会以反射方式获取provider。

2016-08-07 18:42:59 754

原创 51：Spark中的新解析引擎Catalyst源码SQL最终转化为RDD具体实现

本期内容：1. 框架与RDD2. Physical Plan与RDD从技术角度，越底层和硬件偶尔越高，可动弹的空间越小，而越高层，可动用的智慧是更多。Catalyst就是个高层的智慧。Catalyst已经逐渐变成了所有Spark框架的解析优化引擎，RDD是通用抽象的数据结果，RDD+Catalyst就构成了Spark的新底层。Catalyst是在RDD

2016-08-07 18:42:15 585

原创 50：Spark中的新解析引擎Catalyst源码Physical Plan彻底详解

本期内容：1. SparkPlanner的基本工作机制2. Physical Plan源码彻底详解物理计划是Spark和Sparksql相对比而言的，因为SparkSql是在Spark core上的一个抽象，物理化就是变成RDD，是SparkSql和Spark core之间的衔接点。Physical Plan也是Catalyst变成Spark作业的最

2016-08-07 18:41:50 973

原创 49：Spark中的新解析引擎Catalyst源码Optimizer彻底详解

本期内容：1. Optimizer的基本工作机制2. Optimizer源码彻底详解Optimizer是目前为止中catalyst中最重要的部分。主要作用是把analyzed logicalPlan变成optimized LogicalPlan。optimizer和analyzer都继承自RuleExecutor。所以表现形式上都差不多。在analyzer基

2016-08-07 18:41:21 903

原创 48：Spark中的新解析引擎Catalyst源码Analyzer彻底详解

本期内容：1. Analyzer的基本工作机制2. Analyzer源码彻底详解在sql语句的处理流程中，analyzer是在sqlparse的基础上，把unresolved logical plan生成logcal plan。Analyzer定义在analyzer构造的时候，会传入catalog和functionRegistry，其中catelog用来存放用户

2016-08-07 18:40:29 799

原创 47：Spark中的新解析引擎Catalyst源码SqlParser彻底详解

本期内容：1. SqlParser的基本工作机制2. SqlParser源码彻底详解把DataFrame、DataSet变成树。Spark中哟很多结构是树结构。树形结构从前面的介绍，我们可以看到sqlParser会返回一个logicalPlan，它是TreeNode的子类。TreeNode，作为一个树形抽象类，SQL语法的解析的时候，所有的元素都是T

2016-08-07 18:39:57 2562

原创 46：Spark中的新解析引擎Catalyst源码初探

本期内容：1. SQLContext2. Catalyst核心组件源码SQLContext基于SparkContext。Spark应用程序中可以有多个SparkContext。allowMultipleContextsCatalog类SqlParserAnalyzer：最原始的语法的解析Optimizer：优化器

2016-08-07 18:39:29 843

原创 45：神速理解Spark中的新解析引擎Catalyst

本期内容：1. Catelyst本地解析2. Catalyst流程精彩解析Catalyst是Spark SQL中的一套函数式关系查询优化框架。在Catalyst的帮助下，Spark SQL的开发者们只需编写极为精简直观的申明式代码，即可实现各种复杂的查询优化策略，从而大大降低了Spark SQL查询优化器的开发复杂度，也加快了项目整体的迭代速度。 Spark 2.X是以

2016-08-07 18:39:03 1102

原创 44：Spark Streaming之Spark内核回顾思考

本期内容：1. Spark Streaming与Spark Core2. Spark Core思考Spark上的子框架，都是后来加上去的。都是在Spark core上完成的，所有框架一切的实现最终还是由Spark core来做的。抛开任何具体的东西，现在考虑下Spark core是个什么东西。解析rdd程序就是数据+代码。所以首先，我们需要考虑s

2016-08-07 18:38:44 814

原创 43：Spark Streaming中UI内幕实现彻底解密

本期内容：1. Spark Streaming中UI的监听模式2. Spark Streaming中UI具体源码解析解析UI监听模式今天分享下SparkStreaming中的UI部分，和所有的UI系统一样，SparkStreaming中的UI系统使用的是监听器模式。监听器模式是指，首先注册事件源，当事件或者数据发生改变时，监听器就会接收到这个改变，并对这种改变做出响应，监听器模

2016-08-07 18:37:54 1290 6

原创 42：Spark Streaming中checkpoint内幕实现彻底解密

本期内容：1. Spark Streaming中Checkpoint的使用2. Spark Streaming张应用程序的重新启动今天谈下sparkstreaming中，另外一个至关重要的内容Checkpoint。首先，我们会看下checkpoint的使用。另外，会看下在应用程序重新启动时，是如何处理checkpoint的。Checkpoint保存什么

2016-08-07 18:13:51 2053 9

原创 41：Spark Streaming中WAL内幕实现彻底解密

本期内容：1. WAL框架和实现2. Spark Streaming中WAL的使用从本质点说，WAL框架是一个存储系统，可以简单的认为是一个文件系统，其作用类似于BlockManager。我们首先看一下官方的说明：这里有三个要点：总体上，SparkStreaming是用WAL去保存接收到的数据，并且在写入数据后，要把元数据汇报给Drive

2016-08-07 18:03:21 1626 4

原创 40：Spark Streaming中KafkaReceiver内幕实现彻底解密

本期内容：1. KafkaInputDStream源码解密2. KafkaReceiver源码解密Direct方式，是No Receiver方式，和普通Receiver方式，最大的区别，是元数据的管理方式。Direct方式是没有通过zookeeper，由应用自身来管理。KafkaUtils.createDirectStream： /**

2016-08-07 17:52:18 1724 4

andyshar的博客