自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (3)
  • 收藏
  • 关注

原创 算法系列 : 十大经典排序

冒泡排序冒泡排序比较简单 , 没啥好说的 , 上代码for (int i = 0; i < arr.length; i++) { int j = i; while (j >= 1 && arr[j] < arr[j - 1]) { int tmp = arr[j]; arr[j] = arr[j - 1]...

2019-01-17 17:00:55 136

原创 大数据系列 : Scala之旅(四) 面向对象

Scala单例对象在Scala中 , 没有static关键字 , 但是它也提供了单例模式的实现方法。就是使用关键字object , object对象不能带参数。object ScalaTest1 { def main(args: Array[String]): Unit = { ScalaSingleton.saySomething("hello kitty") p...

2019-01-16 16:32:25 118

原创 大数据系列 : Scala之旅(三) 集合

集合简介Scala的集合有三大类 : 序列Seq、集Set、映射Map , 所有的集合扩展自Iterable , 在Scala中集合有可变(mutable)和不可变(immutable)两种类型 , immutable类型的集合初始化后就不能改变了。定长数组和变长数组object ScalaTest16 {  def main(args: Array[String]): Uni...

2019-01-15 17:05:12 193

原创 大数据系列 : Scala之旅(二) 基本语法

函数式编程体验 - spark-shell之WordCount1.准备一个文件2.上传到hdfs3.对上述文件内容使用Spark进行单词个数统计数据类型 Scala的几种数值类型Byte、Char、Short、Int、Long、Float、Double、Boolean、Unit备注 : Unit表示无值 , 和其它语言中的void等同 , 用作不返回任何结果的方...

2019-01-14 21:39:21 180

原创 大数据系列 : Scala之旅(一) 简介 , 环境搭建

什么是Scala官网地址 : https://www.scala-lang.org/ , 描述如下Scala是一种将面向对象和函数式编程结合在一起的一种简洁的高级语言。Scala是静态类型的语言 , 这有助于避免复杂应用中的一些错误 , 它的JVM、JS运行时可以让你通过现有的库生态迅速构建高性能系统。Scala的优势1.优雅 : Scala的表达能力很强 , 特别是处理流数据...

2019-01-14 17:48:26 125

原创 大数据系列 : Spark集群环境搭建

前言本文环境基于Hadoop - Yarn平台搭建Yarn的平台环境默认已经搭建完毕前置环境Linux集群 , Java , Zookeeper , Hadoop , Scala , python-pip(pssh)下载Spark安装包官网地址 https://spark.apache.org/downloads.html如果外网下载速度较慢 , 可以找到对应版本号...

2019-01-08 11:42:14 198

原创 Java系列 : 反射 详解

什么是反射反射是Java的特性之一 , 它允许运行中的程序获取自身信息 , 并可以操作类或对象的内部属性 。简而言之 , 通过反射 , 我们可以在运行时获得程序或者程序集中每一个类型的成员和成员信息。Java反射主要提供以下功能 : 在运行时构造任意一个类的对象; 在运行时判断任意一个类所具有的成员变量和方法(通过反射甚至可以调用系统类private方法); 在运行时调用任意一...

2018-12-31 11:46:52 142

原创 大数据系列 : Spark初探

什么是Spark官网介绍Apache Spark™是用于大规模数据处理的统一分析引擎。Spark诞生于U.C Berkeley的AMPLab , 它是这个世界上最重要的分布式大数据框架之一。它扩展了广泛使用的MapReduce计算模型。高效地支撑更多计算模型 , 包括交互式查询和流处理。Spark的一个主要特点是能够在内存中进行计算 , 即使依赖磁盘进行复杂的运算 , Spark依...

2018-12-29 17:46:34 1130

原创 Hadoop系列 : Yarn原理解析-工作流程

Yarn 概述Yarn是一个资源调度平台 , 负责为运算进程提供服务器运算资源Yarn上可以运行MapReduce、Storm、tez、Spark、Flink等分布式运算进程Yarn的运行流程client向yarn提交job , 首先找到ResourceManager分配资源 ResourceManager开启一个Container , 在Container中运行一个Appl...

2018-12-28 17:58:19 260

原创 JVM系列 : 字节码、指令、重排序

字节码简介1.计算机只能识别0 1 , 经过0 1的组合 , 产生了数字 , 0 1组合也产生了各种字符 , 各种机器指令2.不同的时代 , 不同产商 , 机器指令集(arm , x86 , rsic ...)是不同的3.CPU与指令集直接耦合 , 一个程序要在多个平台运行 , 需要多套代码4.如何实现跨平台 , 中间码(字节码)应运而生字节码实际应用1.字节码是JVM里指...

2018-12-27 17:29:57 1045 1

原创 Hadoop系列 : 精解MapReduce shuffle

shuffle简介MapReduce的shuffle一般是指Map输出到Reduce输入的整个过程。整个shuffle过程中伴随着大量的磁盘IO , 网络IO 。shuffle性能的高低 , 直接决定了整个程序的性能高低 。shuffle的字面意思是洗牌 , 即有序 - 无序的一个过程 , 比如JDK中的shuffle , 它的作用就是随机打乱集合中的元素 。但在MapReduce中 ...

2018-12-26 19:51:04 216 1

原创 在Intellij Idea中查看字节码文件

1.打开settings2.找到Plugin3.搜索jclasslib4.安装后重启5.编译已编译过的源文件6.打开插件7.查看字节码

2018-12-25 19:12:39 1054

原创 JVM系列 : 类加载、类加载器

不多说 , 直接干货类加载器简介Java类加载器是JRE的一部分,负责动态加载Java类到JVM内存。类通常是懒加载 , 显著降低了Java运行时与文件系统的耦合度。JVM的3个默认类加载器 :引导(Bootstrap)类加载器 。由Native代码编写 , 负责加载核心Java库。扩展(Extensions)类加载器。主要加载$JAVAHOME/jre/lib/ext下...

2018-12-25 18:46:36 275

转载 Hadoop系列 : MapReduce原理详解

一. MapReduce简介MapReduce是一个基于 java 的并行分布式计算框架,使用它来编写的数据处理应用可以运行在大型的商用硬件集群上来处理大型数据集中的可并行化问题,数据处理可以发生在存储在文件系统(非结构化)或数据库(结构化)中的数据上。MapReduce 可以利用数据的位置,在存储的位置附近处理数据,以最大限度地减少通信开销。MapReduce 框架通过编组分布式服务器,并...

2018-12-25 16:44:43 352

原创 Hadoop系列 : HDFS(Hadoop Distributed File System)基本功能及原理

HDFS(Hadoop Distributed File System)基本功能及原理一 、HDFS的基本概念HDFS有三个基本概念 , 数据块(Block) , 管理节点(NameNode) , 数据节点(DataNode)数据块(Block)HDFS默认的基本存储单元是64M的数据块元数据节点(NameNode)又名管理节点 , 它存储了文件与数据块的映射 , 以及数据块和...

2018-12-25 14:40:46 357 1

Java高并发程序设计

Java高并发程序设计

2019-01-10

Spark面试题全解-2019版

Spark面试题全解-2019最新版面试题 史上最全Spark面试题

2018-12-29

码出高效(java开发手册)

码出高效(java开发手册

2018-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除