2019年04月_威少SOS

原创 SparkContext内核架构深度剖析

目录一：Spark的核心运转分析二：重点的算法提要三：核心对象的从属关系四：图表一：Spark的核心运转分析1.spark-submit 提交 Application 到 Driver 上执行2.设置 SparkConf , 初始化 SparkContext ，SparkContext 建立 DAGScheduler 和 TaskScheduler3.Tas...

2019-04-26 23:43:14 2401

原创 Spark 高级编程（三）：topn

1.目的例子：将上面图片中的数据，以班级为维度，获取到前三名的信息2.思路（1）先依据 className进行聚合（2）使用冒泡排序摘选数据（重点）3.代码package cn.spark.study.core;import java.util.Arrays;import java.util.Iterator;import org.apache.s...

2019-04-30 17:59:11 3262

原创 Spark 高级编程（二）：二次排序

目录（1）二次排序文本样式（2）解决思路（3）代码（1）二次排序文本样式含义：整体数据事例：如果第一列相同，则按照第二列排序（2）解决思路* 1、实现自定义的key，要实现Ordered接口和Serializable接口，在key中实现自己对多个列的排序算法* 2、将包含文本的RDD，映射成key为自定义key，value为文本的JavaPairRDD...

2019-04-30 17:53:10 3299

原创 Spark高级编程（一）：WordCount 排序

目录一：限制条件二：逻辑思路三：实战代码一：限制条件sortByKey()排序只针对 Tuple2 结构的 key二：逻辑思路（1）使用 mapToPair(transformation算子) 进行key-value 映射反转（2）再次依据 reduceByKey 执行package cn.spark.study.core;import j...

2019-04-30 17:47:59 3539

原创 Spark 共享变量详解

目录一：普通外部变量二：广播变量(Broadcast Variable)三：累加变量(Accumulator)四：流量的消耗五：逻辑构图一：普通外部变量需要定义为 final 终态后，才能被算子内部所使用。每个应用到的Task都拷贝一份副本变量，计算时，只能针对副本二：广播变量(Broadcast Variable)只读属性，每个节点拷贝好处：节...

2019-04-30 17:43:52 1823

原创 Spark RDD 持久化

目录一：应用情景二：持久化的作用方式三：实操四：复习Java序列化的作用五：类比硬盘，内存和CPU的工作关系一：应用情景迭代式算法快速交互式应用二：持久化的作用方式1.再次对同一个RDD进行计算时，会复用已经持久化的RDD，不用从HDFS上重新装载数据生成2.持久化的自动容错机制：在持久化的RDD的任何partit...

2019-04-29 20:00:48 3317

原创 Spark的三种提交模式

目录一：模式分类二：模式适合情景三：图形化流程一：模式分类1.standalone：Master-Worker集群 —— 见博文：《 SparkContext内核架构深度剖析》2.yarn-cluster：（cluster：英 ['klʌstə] n. 群；丛）spark-submit ———》 ResourceManager ————》 NodeManager...

2019-04-28 16:40:41 2960

原创 scala之数组

目录一：Array二：ArrayBuffer三：for循环to和until遍历Array / ArrayBuffer四：相关数组功能点一：Array1.Scala 和 Java 的数据是相通的Scala数组的底层实际上是Java数组2.创建数组（1）val a = new Array[Int](10)（2）简写： Array.apply...

2019-04-27 23:02:15 2371

原创 spark学习之 action 与 transformation 比较

目录一：action 与 transformation 的区别二：action 与transformation 算子的捉对比较一：action 与 transformation 的区别1.RDD 的操作：（1）transformation操作：得到一个新的RDD，比如从数据源生成一个新的RDD，从RDD生成一个新的RDD 常见：数据之间...

2019-04-25 19:40:32 3234

原创 Spark之Action入门

目录1.常用action介绍2.action 案例实战1.常用action介绍 reduce 将RDD中的所有元素进行聚合操作。第一个和第二个元素聚合，值与第三个元素聚合，值与第四个元素聚合，以此类推。 collect 将RDD中所有元素获取到本地客户端。 count ...

2019-04-25 19:38:14 2260

原创 spark学习之宽依赖，窄依赖

目录一：何为宽，何为窄二：宽窄之程序运行效率比较三：具体比较如图（细化到 task，executor）一：何为宽，何为窄以子Rdd对父Rdd的依赖关系为纬度，1对1为窄，反之则宽！二：宽窄之程序运行效率比较例子1：窄依赖在自己的节点中，逐个元素地执行map、然后filter操作，父RDD节点的计算不用等待其它父节点的计算结果。...

2019-04-24 19:27:42 2367

原创 scala之逻辑构建元件

目录一：if-else二：输入，输出三：基本循环四：异常捕获一：if-else(1)存在返回值返回值就是最后运行的语句例子：var result = if(age>18) 1 else 0 ;（2）同样存在类型的判断（3）块儿引用：最后一个表达式在scala中写多行表达式的方法： :paste （写） ...

2019-04-24 17:41:29 1375

原创 scala之函数入门

目录一：函数构成（1）带返回值（2）过程：（不带返回值）二：单行函数三：函数调用（1）递归调用函数时：需明确声明（2）默认参数（3）带名参数（4）变长参数（5）运算符与函数的相互转化（6）不传参的函数调用（7）apply函数（Object类型自带）一：函数构成（1）带返回值 def关键字 + 函数名 + 参数 + ...

2019-04-23 00:11:34 1437

原创 scala之变量

目录一：变量类型二：声明变量三：数据类型一：变量类型临时：var终态的：val理解：var -> variables ：美 ['v?r??bl]，val -> values n. 价值观念；价值标准标准一般是不变的二：声明变量（1）构成：是否可变符号变量名称：变量类型 = 值例子：var num:Int = 1;必...

2019-04-21 23:49:54 1377

原创 Spark之Transformation入门

目录1.常用transformation介绍2.transformation 案例实战1.常用transformation介绍 map 将RDD中的每个元素传入自定义函数，获取一个新的元素，然后用新的元素组成新的RDD filter 对RDD中每个元素进行判断，如果返回true则保留，返回false则剔...

2019-04-18 20:12:01 1427

原创 Spark RDD 基础入门

目录1.创建 RDD2.操作RDD3.RDD之Spark运行流程1.创建 RDD使用程序中的集合创建RDD；使用本地文件创建RDD；亦可以通过输入目录路径来生成（自动的将文件进行合并）使用HDFS文件创建RDD；输入hdfs 上的文件路径即可！2.操作RDDtransaction特性：lazy ：基本的tan...

2019-04-17 21:25:47 198

原创 spark集群配置（IP，Node，BorkerId，myId，角色，端口等重要字段信息）

目录一：集群地址：二：相应组件1.CentOS 6.52.Hadoop3.Hive4.Zookeeper5.Kafka6.Spark一：集群地址：hdfs集群：http://spark1:50070/explorer.html#/yarn集群：http://spark1:8088/cluster/scheduler?...

2019-04-17 00:53:38 575

原创 Spark集群搭建（二）

目录1.hadopp：2.hive：3.zookper：4.kafka：1.hadopp：yarn:资源调度hdfs:相应分布式文件存储两大类角色：Master（管理）和Salve（从动装置）一个HDFS集群是由一个NameNode和若干个DataNode组成的对应的节点描述：NameNode作为主服务器，管理文件系统的命名空间和客户端对文件系统的访...

2019-04-16 00:56:31 118

原创 Spark 架构原理

目录1.Driver2.Master3.Worker4.Executor5.Task1.Driver提交Spark程序的机器，在Master上进行Spark程序的注册2.Master负责资源调度和分配（某节点）3.Worker用内存进行存储数据，用内存对数据进行计算（某节点）4.Executor（进程），对Driver进行反向注册5....

2019-04-15 01:41:01 1318

原创 spark基本工作原理

目录1.Spark基本工作原理2.Spark RDD3.Spark 核心编程流程1.Spark基本工作原理1.Client进行Spark程序编写后提交到集群上运行2.先从 Hadoop 上获取相应数据形成 RDD3.而后对RDD按照需要进行计算或迭代计算2.Spark RDD1.抽象的分布式HDFS文件的数据集（Resillient Distribute...

2019-04-14 01:06:13 148

原创 Spark学习理由及曲线

目录1.本身目标：2.依据51JOB，BOSS直聘上的搜索：3.Spark 优势4.学习曲线5.相关术语总结如下1.本身目标先成专才，在扩展面选择的方向：大数据人工智能区块儿链篇2.依据51JOB，BOSS直聘上的搜索（1）大数据开发工程师要求： hadoop spark ...

2019-04-12 18:48:53 1466

原创 Spark集群搭建之使用Virtual Box 搭建多个CentOS6.5 汇总

目录虚拟机要点GET点遗留点1.虚拟机要点网卡连接方式语言虚拟机内存磁盘空间防火墙：iptablesDNS服务器：/etc/resolv.conf虚拟主机的名称JDK 的安装在 ./.bashrc配置 Liniux 的映射 /etc/hosts Windows 的 hosts 配置集群之间的免密 SS...

2019-04-11 20:46:05 240

原创 Maven学习要点

MAVEN："专家"、"内行"目录一：pom.xml 及标签学习：二：Maven 构建生命周期：三：仓库：四：熟记生命周期，以及阶段五： mvn 的项目文件结构以及各个构建成分的路径六：自动化功能七： maven 和 m2Eclipse 插件的关系一：pom.xml 及标签学习：（1）POM( Project Object Model，...

2019-04-09 20:02:46 269

威少（微笑）