自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 二、Spark内核之通讯架构

Spark内核系列目录一、Spark内核的运行机制文章目录Spark内核系列目录前言一、Spark核心组件1.Driver2. Executor3. Spark运行流程二、Spark部署方式三、YARN模式运行机制1、YARN Cluster模式2、YARN Client模式总结前言Spark 2.x通信架构均使用Netty通讯框架作为内部通讯组件,采用了Actor模型的设计。一、Spark核心组件1.DriverDriver是Spark的驱动器节点,用于执行Spark任务中的main

2021-02-24 20:53:41 301 1

原创 一、Spark内核之运行机制

深究Spark文章目录深究Spark前言一、Spark核心组件1.Driver2. Executor2.读入数据总结前言Spark内核一般指Spark的核心运行机制,包括核心组件的运行机制、任务调度机制、内存管理机制、核心功能运行原理。一、Spark核心组件1.DriverDriver是Spark的驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责:将用户程序转化为作业(Job)在Executor之间调度任务(Ta

2021-02-21 15:37:35 756

原创 Spark本地化原则

本地化原则一、为什么要本地化?二、数据本地化级别三、Spark优化总结一、为什么要本地化?数据本地化对spark的应用程序性能具有重要的影响,当数据与计算该数据的代码在一起,那应用的性能是很高的,如果数据与代码不在同一个地方,那么就要将代码移动到数据所在的节点中,因为移动代码相比较于移动数据速度要快得多。Spark正是通过这样的原则来分配调度task的。二、数据本地化级别数据本地化的五个级别,性能递减:PROCESS_LOCAL:进程本地化,性能最佳。数据与计算的代码在同一个jvm进程

2021-02-19 21:03:09 423

翻译 Spark集群架构介绍

Spark之YARN介绍一、导语二、Spark及其特性三、Spark架构总览一、导语Apache Spark(后续简称为Spark)是一款正在点燃大数据世界的开源集群计算框架。据Spark Certified Experts显示,在内存中运行时,Sparks性能要比Hadoop快一百倍,在磁盘上运行,Sparks比Hadoop快达十倍。在本篇博客中,我将会为你简单介绍一下Spark的底层基础架...

2021-02-19 12:47:18 1773

原创 四、排序算法

一、简介本文主要介绍归并排序、快速排序、希尔排序、堆排序、拓扑排序、桶排序方法。二、归并排序1、介绍归并排序采用了典型的归并思想来实现数据的排序,该算法采用分治法,首先将数据分成若干个子序列,然后将已有序的序列进行合并,从而得到一个完全有序的序列。即先使每个子序列有序,再使子序列间有序。2、时间复杂度与空间复杂度归并排序最坏情况、最好情况、平均情况均为O(nlogn),辅助空间为O(n)。3、代码object MergeSort { def main(args: Arr

2021-02-09 21:24:55 98

原创 Spark常用算子介绍

一、简介Spark主要包含Transformation和Action两种算子。Transformation算子Transformation类算子一般都是懒操作的,即该过程并不提交Job作业,而是等到Action算子才会提交作业。主要包括:map、filter、flatMap、mapPartitions、mapPartitionsWithIndex、sample、union、intersection、distinct、groupByKey、reduceByKey、aggregateByKey、sort

2020-11-13 14:21:06 5985

原创 Hadoop2之HDFS2介绍

Hadoop2之HDFS2介绍一、简介二、特点三、NameNode and DataNodes一、简介HDFS全称是Hadoop Distributed File System,是一个旨在运行在普通机器上的分布式的文件系统。HDFS与其他分布式文件系统最要的区别在于其可以在廉价的机器上发挥出极其出色的性能。二、特点特点HDFS主要具有以下特点:1、支持超大文件;2、检测和快速应对硬...

2020-11-13 14:14:33 277

原创 二、二部图

图(graph)之二部图一、简介一、简介二、特征三、操作1. 向上筛选(sift up/bubble up)2. 向下筛选(sift down/bubble down)3. 初始化四、例题解析1. 题目描述2、代码二、特征三、操作1. 向上筛选(sift up/bubble up)2. 向下筛选(sift down/bubble down)3. 初始化四、例题解析1. 题目描述2、代码一、简介二部图又作二分图,是图中的特殊模型。设G=(V, E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,

2020-11-11 13:12:43 744

原创 一、优先队列

优先队列欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编

2020-11-01 15:57:21 216

原创 Hadoop2之YARN介绍

Hadoop2之YARN介绍一、简介二、ResourceManager三、NodeManager四、ApplicationMaster五、Application Manager六、Container七、YARN运行过程八、Yarn的容错能力九、Yarn调度器十、结语一、简介Hadoop2.x主要由HDFS、YARN和MapReduce三部分组成,其架构图如图1.1所示。图1.1Hadoop...

2020-04-18 02:08:24 1387

原创 C#使用phantomjs对网页截图

众所周知,现在的主流浏览器使用的主要是三大内核,一是以IE为代表的Trident内核,二是以Google Chrome为代表的webkit内核,三是以火狐为代表的Gecko内核。一般来讲,C#网页截图使用C#控件中的WebBroswer比较多,这样的帖子挺多的,也十分省事。但今天要分享的是使用phantomjs对网页截图,phantomjs是以webkit为内核的无头浏览器,就是没有界面。一、

2017-12-07 14:42:19 5465

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除