自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

威少(微笑)

改变从这.开始

  • 博客(23)
  • 资源 (1)
  • 收藏
  • 关注

原创 SparkContext内核架构深度剖析

目录一:Spark的核心运转分析二:重点的算法提要三:核心对象的从属关系四:图表一:Spark的核心运转分析1.spark-submit 提交 Application 到 Driver 上执行2.设置 SparkConf , 初始化 SparkContext ,SparkContext 建立 DAGScheduler 和 TaskScheduler3.Tas...

2019-04-26 23:43:14 2401

原创 Spark 高级编程(三):topn

1.目的例子: 将上面图片中的数据,以班级为维度,获取到前三名的信息2.思路(1)先依据 className进行聚合(2)使用冒泡排序摘选数据(重点)3.代码package cn.spark.study.core;import java.util.Arrays;import java.util.Iterator;import org.apache.s...

2019-04-30 17:59:11 3262

原创 Spark 高级编程(二):二次排序

目录(1)二次排序文本样式(2)解决思路(3)代码(1)二次排序文本样式含义:整体数据事例:如果第一列相同,则按照第二列排序(2)解决思路* 1、实现自定义的key,要实现Ordered接口和Serializable接口,在key中实现自己对多个列的排序算法* 2、将包含文本的RDD,映射成key为自定义key,value为文本的JavaPairRDD...

2019-04-30 17:53:10 3299

原创 Spark高级编程(一):WordCount 排序

目录一:限制条件二:逻辑思路三:实战代码一:限制条件sortByKey()排序只针对 Tuple2 结构的 key二:逻辑思路(1)使用 mapToPair(transformation算子) 进行key-value 映射反转(2)再次依据 reduceByKey 执行package cn.spark.study.core;import j...

2019-04-30 17:47:59 3539

原创 Spark 共享变量详解

目录一:普通外部变量二:广播变量(Broadcast Variable)三:累加变量(Accumulator)四:流量的消耗五:逻辑构图一:普通外部变量需要定义为 final 终态后,才能被算子内部所使用。每个应用到的Task都拷贝一份副本变量,计算时,只能针对副本二:广播变量(Broadcast Variable)只读属性,每个节点拷贝好处:节...

2019-04-30 17:43:52 1823

原创 Spark RDD 持久化

目录一:应用情景二:持久化的作用方式三:实操四:复习Java序列化的作用五:类比硬盘,内存和CPU的工作关系一:应用情景 迭代式算法 快速交互式应用二:持久化的作用方式1.再次对同一个RDD进行计算时,会复用已经持久化的RDD,不用从HDFS上重新装载数据生成2.持久化的自动容错机制:在持久化的RDD的任何partit...

2019-04-29 20:00:48 3317

原创 Spark的三种提交模式

目录一:模式分类二:模式适合情景三:图形化流程一:模式分类1.standalone:Master-Worker集群 —— 见博文:《 SparkContext内核架构深度剖析》2.yarn-cluster:(cluster:英 ['klʌstə] n. 群;丛)spark-submit ———》 ResourceManager ————》 NodeManager...

2019-04-28 16:40:41 2960

原创 scala之数组

目录一:Array二:ArrayBuffer三:for循环to和until遍历Array / ArrayBuffer四:相关数组功能点一:Array1.Scala 和 Java 的数据是相通的Scala数组的底层实际上是Java数组2.创建数组(1)val a = new Array[Int](10)(2)简写: Array.apply...

2019-04-27 23:02:15 2371

原创 spark学习之 action 与 transformation 比较

目录一:action 与 transformation 的区别二:action 与transformation 算子的捉对比较一:action 与 transformation 的区别1.RDD 的操作: (1)transformation操作:得到一个新的RDD,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD 常见:数据之间...

2019-04-25 19:40:32 3234

原创 Spark之Action入门

目录1.常用action介绍2.action 案例实战1.常用action介绍 reduce 将RDD中的所有元素进行聚合操作。第一个和第二个元素聚合,值与第三个元素聚合,值与第四个元素聚合,以此类推。 collect 将RDD中所有元素获取到本地客户端。 count ...

2019-04-25 19:38:14 2260

原创 spark学习之宽依赖,窄依赖

目录一:何为宽,何为窄二:宽窄之程序运行效率比较三:具体比较如图(细化到 task,executor)一:何为宽,何为窄以子Rdd对父Rdd的依赖关系为纬度,1对1为窄,反之则宽!二:宽窄之程序运行效率比较例子1: 窄依赖在自己的节点中,逐个元素地执行map、然后filter操作,父RDD节点的计算不用等待其它父节点的计算结果。...

2019-04-24 19:27:42 2367

原创 scala之逻辑构建元件

目录一:if-else二:输入,输出三:基本循环四:异常捕获一:if-else(1)存在返回值返回值就是最后运行的语句例子:var result = if(age>18) 1 else 0 ;(2)同样存在类型的判断(3)块儿引用:最后一个表达式 在scala中写多行表达式的方法: :paste (写 ) ...

2019-04-24 17:41:29 1375

原创 scala之函数入门

目录一:函数构成(1)带返回值(2)过程:(不带返回值)二:单行函数三:函数调用(1)递归调用函数时:需明确声明(2)默认参数(3)带名参数(4)变长参数(5)运算符与函数的相互转化(6)不传参的函数调用(7)apply函数(Object类型自带)一:函数构成(1)带返回值 def关键字 + 函数名 + 参数 + ...

2019-04-23 00:11:34 1437

原创 scala之变量

目录一:变量类型二:声明变量三:数据类型一:变量类型临时:var终态的:val理解:var -> variables :美 ['v?r??bl],val -> values n. 价值观念;价值标准 标准一般是不变的二:声明变量(1)构成:是否可变符号 变量名称 : 变量类型 = 值例子:var num:Int = 1;必...

2019-04-21 23:49:54 1377

原创 Spark之Transformation入门

目录1.常用transformation介绍2.transformation 案例实战1.常用transformation介绍 map 将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD filter 对RDD中每个元素进行判断,如果返回true则保留,返回false则剔...

2019-04-18 20:12:01 1427

原创 Spark RDD 基础入门

目录1.创建 RDD2.操作RDD3.RDD之Spark运行流程1.创建 RDD使用程序中的集合创建RDD;使用本地文件创建RDD; 亦可以通过输入目录路径来生成(自动的将文件进行合并)使用HDFS文件创建RDD; 输入hdfs 上的文件路径即可!2.操作RDDtransaction特性:lazy : 基本的tan...

2019-04-17 21:25:47 198

原创 spark集群配置(IP,Node,BorkerId,myId,角色,端口等重要字段信息)

目录一:集群地址:二:相应组件1.CentOS 6.52.Hadoop3.Hive4.Zookeeper5.Kafka6.Spark一:集群地址:hdfs集群:http://spark1:50070/explorer.html#/yarn集群:http://spark1:8088/cluster/scheduler?...

2019-04-17 00:53:38 575

原创 Spark集群搭建 (二)

目录1.hadopp:2.hive:3.zookper:4.kafka:1.hadopp:yarn:资源调度hdfs:相应分布式文件存储两大类角色:Master(管理)和Salve(从动装置)一个HDFS集群是由一个NameNode和若干个DataNode组成的对应的节点描述:NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的访...

2019-04-16 00:56:31 118

原创 Spark 架构原理

目录1.Driver2.Master3.Worker4.Executor5.Task1.Driver提交Spark程序的机器,在Master上进行Spark程序的注册2.Master负责资源调度和分配(某节点)3.Worker用内存进行存储数据,用内存对数据进行计算(某节点)4.Executor(进程),对Driver进行反向注册5....

2019-04-15 01:41:01 1318

原创 spark基本工作原理

目录1.Spark基本工作原理2.Spark RDD3.Spark 核心编程流程1.Spark基本工作原理1.Client进行Spark程序编写后提交到集群上运行2.先从 Hadoop 上获取相应数据形成 RDD3.而后对RDD按照需要进行计算或迭代计算2.Spark RDD1.抽象的分布式HDFS文件的数据集(Resillient Distribute...

2019-04-14 01:06:13 148

原创 Spark学习理由及曲线

目录1.本身目标:2.依据51JOB,BOSS直聘上的搜索:3.Spark 优势4.学习曲线5.相关术语总结如下1.本身目标先成专才,在扩展面选择的方向: 大数据 人工智能 区块儿链篇2.依据51JOB,BOSS直聘上的搜索(1)大数据开发工程师要求: hadoop spark ...

2019-04-12 18:48:53 1466

原创 Spark集群搭建 之使用Virtual Box 搭建多个CentOS6.5 汇总

目录虚拟机要点GET点遗留点1.虚拟机要点网卡连接方式语言虚拟机内存磁盘空间防火墙:iptablesDNS服务器:/etc/resolv.conf虚拟主机的名称JDK 的安装 在 ./.bashrc配置 Liniux 的 映射 /etc/hosts Windows 的 hosts 配置集群之间的免密 SS...

2019-04-11 20:46:05 240

原创 Maven学习要点

MAVEN:"专家"、"内行"目录一:pom.xml 及标签学习:二:Maven 构建生命周期:三:仓库:四:熟记生命周期,以及阶段五: mvn 的项目文件结构以及各个构建成分的路径六:自动化功能七: maven 和 m2Eclipse 插件 的关系一:pom.xml 及标签学习:(1)POM( Project Object Model,...

2019-04-09 20:02:46 269

BigDecimal计算

BigDecimal计算,用于处理Java中的大的数据的运算

2019-03-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除