自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

古月慕南的代码世界

Java、Scala、大数据

  • 博客(7)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

翻译 Spark2.1.0文档:Spark编程指南-Spark Programming Guide

1 概述从一个较高的层次来看,每一个 Spark 应用程序由一个在集群上运行着用户的 main 函数和执行各种并行操作的driver program(驱动程序)组成。Spark 提供的主要抽象是一个弹性分布式数据集(RDD),它是可以执行并行操作且跨节点分布的元素的集合。我们可以通过三种方式得到一个RDD1、 可以从一个 Hadoop 文件系统(或者任何其它 Hadoop 支持的文件系

2017-04-24 20:04:16 4453 5

原创 Spark2.10中使用累加器、注意点以及实现自定义累加器

累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。累加器简单使用Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例,在这个例子中我们在过滤掉RDD中奇数的同时进行计数,最后计算剩下整数的和。 val

2017-04-24 19:38:42 16432 9

原创 TCP/IP协议栈分析(1)-概述

本篇文章是对TCP/IP协议栈的概述,不涉及具体细节。TCP/IP协议栈主要分为四层:应用层、传输层、网络层、数据链路层,每层都有相应的协议,如下图两台计算机通过TCP IP协议通讯的过程如下所示传输层及其以下的机制由内核提供,应用层由用户进程提供(后面将介绍如何使用socket API编写应用程序),应用程序对通讯数据的含义进行解释,而传输层及其以下处理通

2017-04-23 12:28:49 897

翻译 Spark2.1.0官方文档:快速开始-Quick Start

利用Spark Shell进行交互式分析基本操作更多关于的RDD操作使用缓存独立的应用程序下一步可以做什么本教程对于Spark的使用进行了简单的介绍。我们首先通过Spark的交互式shell环境介绍一些基础API的使用,然后展示如何使用Scala语言编写一个具体的应用。如果想要更详细的教程,请移步编程指南。如果想要亲自试试本篇中的例子,您需要从Spark

2017-04-19 17:01:58 1637

原创 算法时间复杂度的表达-渐进符号与主定理

渐进符号是分析算法时间复杂度的常用记号,对于某个规模为n的问题,当n足够大时,就可以忽略掉复杂度表达式中的低阶项和最高次项的系数,由此引出“渐进复杂度”,并且用渐进符号来对“渐进复杂度”进行表达。一、渐进符号1、O(大O符号):上界定义:若存在两个正的常数 c 和 n0 , 对于任意 n≥n0 , 都有 T( n)≤cf( n) ,则称T( n) = O( f( n) )(或称算法在

2017-04-18 16:09:25 12016

原创 堆与堆排序

堆排序与快速排序,归并排序一样都是时间复杂度为O(N*logN)的几种常见排序方法。学习堆排序前,先讲解下什么是数据结构中的二叉堆。二叉堆的定义二叉堆是完全二叉树或者是近似完全二叉树。二叉堆满足二个特性:1.父结点的键值总是大于或等于(小于或等于)任何一个子节点的键值。2.每个结点的左子树和右子树都是一个二叉堆(都是最大堆或最小堆)。当父结点的键值总是大于或等于任何一个子节

2017-04-12 10:48:20 716

原创 二叉树遍历(先序、中序、后序、深度、广度)递归和非递归实现

二叉树是一种非常重要的数据结构,很多其它数据结构都是基于二叉树的基础演变而来的。二叉树的遍历方式分为深度遍历和广度遍历,深度遍历包括前序、中序以及后序三种遍历方法,广度遍历即我们平常所说的层次遍历。因为树的定义本身就是递归定义,因此采用递归的方法去实现树的深度遍历不仅容易理解而且代码很简洁,而对于广度遍历来说,需要其他数据结构的支撑,比如堆了。所以,对于一段代码来说,可读性有时候要比代码本身的效率

2017-04-07 15:11:15 1804

spring4.0.0 jar包(解压后使用)

spring4.0.0 jar包

2016-08-12

mysql必知必会样例表生成脚本

mysql必知必会附录B中提到的杨列表生成脚本

2015-11-09

解决vmware_虚拟机无法上网问题__纯菜鸟教程.doc

解决vmware_虚拟机无法上网问题__纯菜鸟教程

2014-01-13

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除