- 博客(23)
- 资源 (1)
- 收藏
- 关注
原创 SparkContext内核架构深度剖析
目录一:Spark的核心运转分析二:重点的算法提要三:核心对象的从属关系四:图表一:Spark的核心运转分析1.spark-submit 提交 Application 到 Driver 上执行2.设置 SparkConf , 初始化 SparkContext ,SparkContext 建立 DAGScheduler 和 TaskScheduler3.Tas...
2019-04-26 23:43:14 2401
原创 Spark 高级编程(三):topn
1.目的例子: 将上面图片中的数据,以班级为维度,获取到前三名的信息2.思路(1)先依据 className进行聚合(2)使用冒泡排序摘选数据(重点)3.代码package cn.spark.study.core;import java.util.Arrays;import java.util.Iterator;import org.apache.s...
2019-04-30 17:59:11 3262
原创 Spark 高级编程(二):二次排序
目录(1)二次排序文本样式(2)解决思路(3)代码(1)二次排序文本样式含义:整体数据事例:如果第一列相同,则按照第二列排序(2)解决思路* 1、实现自定义的key,要实现Ordered接口和Serializable接口,在key中实现自己对多个列的排序算法* 2、将包含文本的RDD,映射成key为自定义key,value为文本的JavaPairRDD...
2019-04-30 17:53:10 3299
原创 Spark高级编程(一):WordCount 排序
目录一:限制条件二:逻辑思路三:实战代码一:限制条件sortByKey()排序只针对 Tuple2 结构的 key二:逻辑思路(1)使用 mapToPair(transformation算子) 进行key-value 映射反转(2)再次依据 reduceByKey 执行package cn.spark.study.core;import j...
2019-04-30 17:47:59 3539
原创 Spark 共享变量详解
目录一:普通外部变量二:广播变量(Broadcast Variable)三:累加变量(Accumulator)四:流量的消耗五:逻辑构图一:普通外部变量需要定义为 final 终态后,才能被算子内部所使用。每个应用到的Task都拷贝一份副本变量,计算时,只能针对副本二:广播变量(Broadcast Variable)只读属性,每个节点拷贝好处:节...
2019-04-30 17:43:52 1823
原创 Spark RDD 持久化
目录一:应用情景二:持久化的作用方式三:实操四:复习Java序列化的作用五:类比硬盘,内存和CPU的工作关系一:应用情景 迭代式算法 快速交互式应用二:持久化的作用方式1.再次对同一个RDD进行计算时,会复用已经持久化的RDD,不用从HDFS上重新装载数据生成2.持久化的自动容错机制:在持久化的RDD的任何partit...
2019-04-29 20:00:48 3317
原创 Spark的三种提交模式
目录一:模式分类二:模式适合情景三:图形化流程一:模式分类1.standalone:Master-Worker集群 —— 见博文:《 SparkContext内核架构深度剖析》2.yarn-cluster:(cluster:英 ['klʌstə] n. 群;丛)spark-submit ———》 ResourceManager ————》 NodeManager...
2019-04-28 16:40:41 2960
原创 scala之数组
目录一:Array二:ArrayBuffer三:for循环to和until遍历Array / ArrayBuffer四:相关数组功能点一:Array1.Scala 和 Java 的数据是相通的Scala数组的底层实际上是Java数组2.创建数组(1)val a = new Array[Int](10)(2)简写: Array.apply...
2019-04-27 23:02:15 2371
原创 spark学习之 action 与 transformation 比较
目录一:action 与 transformation 的区别二:action 与transformation 算子的捉对比较一:action 与 transformation 的区别1.RDD 的操作: (1)transformation操作:得到一个新的RDD,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD 常见:数据之间...
2019-04-25 19:40:32 3234
原创 Spark之Action入门
目录1.常用action介绍2.action 案例实战1.常用action介绍 reduce 将RDD中的所有元素进行聚合操作。第一个和第二个元素聚合,值与第三个元素聚合,值与第四个元素聚合,以此类推。 collect 将RDD中所有元素获取到本地客户端。 count ...
2019-04-25 19:38:14 2260
原创 spark学习之宽依赖,窄依赖
目录一:何为宽,何为窄二:宽窄之程序运行效率比较三:具体比较如图(细化到 task,executor)一:何为宽,何为窄以子Rdd对父Rdd的依赖关系为纬度,1对1为窄,反之则宽!二:宽窄之程序运行效率比较例子1: 窄依赖在自己的节点中,逐个元素地执行map、然后filter操作,父RDD节点的计算不用等待其它父节点的计算结果。...
2019-04-24 19:27:42 2367
原创 scala之逻辑构建元件
目录一:if-else二:输入,输出三:基本循环四:异常捕获一:if-else(1)存在返回值返回值就是最后运行的语句例子:var result = if(age>18) 1 else 0 ;(2)同样存在类型的判断(3)块儿引用:最后一个表达式 在scala中写多行表达式的方法: :paste (写 ) ...
2019-04-24 17:41:29 1375
原创 scala之函数入门
目录一:函数构成(1)带返回值(2)过程:(不带返回值)二:单行函数三:函数调用(1)递归调用函数时:需明确声明(2)默认参数(3)带名参数(4)变长参数(5)运算符与函数的相互转化(6)不传参的函数调用(7)apply函数(Object类型自带)一:函数构成(1)带返回值 def关键字 + 函数名 + 参数 + ...
2019-04-23 00:11:34 1437
原创 scala之变量
目录一:变量类型二:声明变量三:数据类型一:变量类型临时:var终态的:val理解:var -> variables :美 ['v?r??bl],val -> values n. 价值观念;价值标准 标准一般是不变的二:声明变量(1)构成:是否可变符号 变量名称 : 变量类型 = 值例子:var num:Int = 1;必...
2019-04-21 23:49:54 1377
原创 Spark之Transformation入门
目录1.常用transformation介绍2.transformation 案例实战1.常用transformation介绍 map 将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD filter 对RDD中每个元素进行判断,如果返回true则保留,返回false则剔...
2019-04-18 20:12:01 1427
原创 Spark RDD 基础入门
目录1.创建 RDD2.操作RDD3.RDD之Spark运行流程1.创建 RDD使用程序中的集合创建RDD;使用本地文件创建RDD; 亦可以通过输入目录路径来生成(自动的将文件进行合并)使用HDFS文件创建RDD; 输入hdfs 上的文件路径即可!2.操作RDDtransaction特性:lazy : 基本的tan...
2019-04-17 21:25:47 198
原创 spark集群配置(IP,Node,BorkerId,myId,角色,端口等重要字段信息)
目录一:集群地址:二:相应组件1.CentOS 6.52.Hadoop3.Hive4.Zookeeper5.Kafka6.Spark一:集群地址:hdfs集群:http://spark1:50070/explorer.html#/yarn集群:http://spark1:8088/cluster/scheduler?...
2019-04-17 00:53:38 575
原创 Spark集群搭建 (二)
目录1.hadopp:2.hive:3.zookper:4.kafka:1.hadopp:yarn:资源调度hdfs:相应分布式文件存储两大类角色:Master(管理)和Salve(从动装置)一个HDFS集群是由一个NameNode和若干个DataNode组成的对应的节点描述:NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的访...
2019-04-16 00:56:31 118
原创 Spark 架构原理
目录1.Driver2.Master3.Worker4.Executor5.Task1.Driver提交Spark程序的机器,在Master上进行Spark程序的注册2.Master负责资源调度和分配(某节点)3.Worker用内存进行存储数据,用内存对数据进行计算(某节点)4.Executor(进程),对Driver进行反向注册5....
2019-04-15 01:41:01 1318
原创 spark基本工作原理
目录1.Spark基本工作原理2.Spark RDD3.Spark 核心编程流程1.Spark基本工作原理1.Client进行Spark程序编写后提交到集群上运行2.先从 Hadoop 上获取相应数据形成 RDD3.而后对RDD按照需要进行计算或迭代计算2.Spark RDD1.抽象的分布式HDFS文件的数据集(Resillient Distribute...
2019-04-14 01:06:13 148
原创 Spark学习理由及曲线
目录1.本身目标:2.依据51JOB,BOSS直聘上的搜索:3.Spark 优势4.学习曲线5.相关术语总结如下1.本身目标先成专才,在扩展面选择的方向: 大数据 人工智能 区块儿链篇2.依据51JOB,BOSS直聘上的搜索(1)大数据开发工程师要求: hadoop spark ...
2019-04-12 18:48:53 1466
原创 Spark集群搭建 之使用Virtual Box 搭建多个CentOS6.5 汇总
目录虚拟机要点GET点遗留点1.虚拟机要点网卡连接方式语言虚拟机内存磁盘空间防火墙:iptablesDNS服务器:/etc/resolv.conf虚拟主机的名称JDK 的安装 在 ./.bashrc配置 Liniux 的 映射 /etc/hosts Windows 的 hosts 配置集群之间的免密 SS...
2019-04-11 20:46:05 240
原创 Maven学习要点
MAVEN:"专家"、"内行"目录一:pom.xml 及标签学习:二:Maven 构建生命周期:三:仓库:四:熟记生命周期,以及阶段五: mvn 的项目文件结构以及各个构建成分的路径六:自动化功能七: maven 和 m2Eclipse 插件 的关系一:pom.xml 及标签学习:(1)POM( Project Object Model,...
2019-04-09 20:02:46 269
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人