自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (2)
  • 收藏
  • 关注

原创 Scala思维导图--scala知识体系总结

Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上,并兼容现有的Java程序。Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。官网中详细的说明了scala的六大特性:该思维导图总结了Scala基础及进阶的大部分知识,并提

2018-01-31 20:28:22 1247 1

原创 “戏”说spark---spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。在“戏”说Spark---Spark架构一文中,我们知道在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务

2017-12-05 21:18:44 845

原创 “戏”说spark---资源调度和任务调度

在“戏”说Spark-spark运行模式简解一文中不管是以client或者是以cluster的方式提交到Standalone上还是提交到yarn上,我们就概括性的描述了提交运行的流程,大概就是创建Driver,申请资源,分发任务,执行任务,返回结果这么一个过程。在“戏”说Spark-Spark核心-Stage划分及Pipline的计算模式一文中,我们详细的了解了RDD宽窄依赖的划分是为了Stage的划分,Stage的划分是为了实现再依赖组成的stage里面的Pipline的计算模型,那Spark是怎么实现资

2017-12-05 21:03:33 537

原创 “戏”说spark---spark Shuffle详解(二)

Spark中两种ShuffleManager,HashShuffleManager和SortShuffleManager,那么在Shuffle中,Reduce节点是怎么知道map端溢写文件的位置的呢?Reduce端是怎么拉取数据的呢?

2017-12-05 20:52:24 476

原创 “戏”说spark---spark Shuffle详解(一)

Shuffle 过程本质上都是将 Map 端获得的数据使用分区器进行划分,并将数据发送给对应的 Reducer 的过程。shuffle作为处理连接map端和reduce端的枢纽,其shuffle的性能高低直接影响了整个程序的性能和吞吐量。map端的shuffle一般为shuffle的Write阶段,reduce端的shuffle一般为shuffle的read阶段。Hadoop和spark的shuffle在实现上面存在很大的不同,spark的shuffle分为两种实现,分别为HashShuffle和Sort

2017-12-05 20:36:54 2000

原创 “戏”说Spark-spark运行模式简解

目前Apache Spark支持一种本地运行模式local,三种分布式运行方式(常用),分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce,公用一个集群资源,最大的好处是降低运维成本和提高资源利用率(资源按需分配)

2017-12-05 20:22:16 472

原创 “戏”说Spark-Spark核心-Stage划分及Pipline的计算模式

在spark中,会根据RDD之间的依赖关系将DAG图划分为不同的阶段,对于窄依赖,由于partition依赖关系的确定性,partition的转换处理就可以在同一个线程里完成,窄依赖就被spark划分到同一个stage中,而对于宽依赖,只能等父RDD shuffle处理完成后,下一个stage才能开始接下来的计算。因此spark划分stage的整体思路是:从后往前推,遇到宽依赖就断开,划分为一个stage;遇到窄依赖就将这个RDD加入该stage中。因此在图2中RDD C,RDD D,RDD E,RDDF

2017-12-05 20:07:24 1009 1

原创 “戏”说Spark-Spark核心-RDD转换操作算子详解(二)

对于RDD可以有两种计算方式:转换(返回值还是一个RDD)---懒执行操作(返回值不是一个RDD)---立即执行转换(Transformations) (如:map, filter, groupBy, join等),Transformations操作是Lazy的,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,Spark在遇到Transformations操作时只会记录需要这样的操作,并不会去执行,需要等到有Actions操作的时候才会真正启动计算过程进行计算

2017-12-04 22:51:00 353

原创 “戏”说Spark-Spark核心-RDD转换操作算子详解(一)

对于RDD可以有两种计算方式:转换(返回值还是一个RDD)---懒执行操作(返回值不是一个RDD)---立即执行转换(Transformations) (如:map, filter, groupBy, join等),Transformations操作是Lazy的,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,Spark在遇到Transformations操作时只会记录需要这样的操作,并不会去执行,需要等到有Actions操作的时候才会真正启动计算过程进行计算。操作(Actions) (

2017-12-04 00:01:52 720

原创 机器学习基础思维导图

机器学习基础思维导图,小小的总结,分享给大家。希望对大家有所帮助。如有错误请批评指出,谢谢

2017-11-29 17:54:50 1064 1

原创 SparkSQL思维导图

SparkSQL思维导图,小小的总结,分享给大家。希望对大家有所帮助。如有错误,请批评指正,谢谢。

2017-11-29 17:47:43 472

原创 SparkStreaming思维导图

SparkStreaming思维导图,小小的总结,分享给大家,希望对大家有所帮助。如有错误,请批评指正,谢谢。

2017-11-29 17:45:43 419

原创 设计模式思维导图

设计模式(Design pattern)代表了最佳的实践,通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。设计模式分为三大类:创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式,共七种:适配器模式、装饰器模式、代理

2017-11-29 17:27:37 458

原创 “戏”说Spark-Spark核心-RDD 持久化机制详解

RDD有一个叫持久化的机制,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用。这将使得后续的动作(action)变得更加迅速(通常快10倍)。缓存是用Spark构建迭代算法的关键。RDD的缓存能够在第一次计算完成后,将计算结果保存到内存、本地文件系统或者Tachyon(分布式内存文件系统)中。通过缓存,Spark避免了RDD上的重复计算,能够极大地提升计算速度。在Spark应用程

2017-11-29 17:06:11 560

原创 “戏”说Spark---Spark架构

Spark架构采用的是分布式计算中的Master-Slave模型。我们编写的Spark应用程序是分布式执行的,Spark应用程序可分两部分:Driver部分初始化和负责控制一个应用的执行,Executor部分实际执行,通过Client提交Spark应用程序,在Driver Program启动,通过集群管理程序(ClusterManager)调用资源执行

2017-11-28 17:05:41 350

原创 “戏”说Spark---Spark初认识

简介Spark官网:http://spark.apache.org/Spark的口号是:Lightning-fast cluster computing---快如闪电的集群计算One stack rule them all---一栈式大数据技术栈Spark简介Spark是加州大学伯克利分校AMP实验室(Algorith

2017-11-27 15:53:19 427

原创 ”戏“说java--细说Java异常类体系结构

在《”戏“说java--异常及异常处理概述》一文中我们概述了什么是异常,异常指的是不期而至的各种非理想的状况,如:文件找不到、网络连接失败、非法参数等。异常干扰了正常的指令流程,造成了程序的中断。如果不妥善的处理异常容易造成不良的用户体验。在处理异常处理的方案中“异常处理机制”是一种比识别返回值更加的优良的解决方案。那在java程序设计语言中是怎么实现“终止模型”的异常处理解决方案的呢?

2016-12-14 23:13:52 230

原创 ”戏“说java—异常及异常处理概述

何为异常?专业的讲,异常是导致程序中断运行的一种指令流。通俗的说,异常(Exception)表达的是一种“例外”情况,亦即正常情况之外的一种“异常”。所谓的正常的情况是在理想境界中的,程序永远不会出现问题,用户输入的数据永远是正确的,逻辑没有任何问题,选择打开的文件也一定是存在的,内存永远是够用的……反正不存在任何的逻辑或者非逻辑的问题,但是一旦出现这些问题,程序就会中断。既然不存在理想的境界,那么,在异常出现的时候我们就需要妥善的对它进行处理。

2016-12-14 22:44:59 266

hbase-apache离线官方文档

apache_hbase_reference_guide hbase-apache离线官方文档

2018-01-14

Hive编程指南_pdf_中文版

Hive编程指南.pdf 完整版。市场中第一本Hive图书。 Hive在Hadoop系统中的应用趋势比较可观

2018-01-12

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除