spark基础
spark
威少SOS
改变从这里开始
展开
-
Spark学习理由及曲线
目录1.本身目标:2.依据51JOB,BOSS直聘上的搜索:3.Spark 优势4.学习曲线5.相关术语总结如下1.本身目标先成专才,在扩展面选择的方向: 大数据 人工智能 区块儿链篇2.依据51JOB,BOSS直聘上的搜索(1)大数据开发工程师要求: hadoop spark ...原创 2019-04-12 18:48:53 · 1488 阅读 · 0 评论 -
Spark 高级编程(二):二次排序
目录(1)二次排序文本样式(2)解决思路(3)代码(1)二次排序文本样式含义:整体数据事例:如果第一列相同,则按照第二列排序(2)解决思路* 1、实现自定义的key,要实现Ordered接口和Serializable接口,在key中实现自己对多个列的排序算法* 2、将包含文本的RDD,映射成key为自定义key,value为文本的JavaPairRDD...原创 2019-04-30 17:53:10 · 3322 阅读 · 0 评论 -
Spark高级编程(一):WordCount 排序
目录一:限制条件二:逻辑思路三:实战代码一:限制条件sortByKey()排序只针对 Tuple2 结构的 key二:逻辑思路(1)使用 mapToPair(transformation算子) 进行key-value 映射反转(2)再次依据 reduceByKey 执行package cn.spark.study.core;import j...原创 2019-04-30 17:47:59 · 3556 阅读 · 0 评论 -
Spark 共享变量详解
目录一:普通外部变量二:广播变量(Broadcast Variable)三:累加变量(Accumulator)四:流量的消耗五:逻辑构图一:普通外部变量需要定义为 final 终态后,才能被算子内部所使用。每个应用到的Task都拷贝一份副本变量,计算时,只能针对副本二:广播变量(Broadcast Variable)只读属性,每个节点拷贝好处:节...原创 2019-04-30 17:43:52 · 1845 阅读 · 0 评论 -
Spark RDD 持久化
目录一:应用情景二:持久化的作用方式三:实操四:复习Java序列化的作用五:类比硬盘,内存和CPU的工作关系一:应用情景 迭代式算法 快速交互式应用二:持久化的作用方式1.再次对同一个RDD进行计算时,会复用已经持久化的RDD,不用从HDFS上重新装载数据生成2.持久化的自动容错机制:在持久化的RDD的任何partit...原创 2019-04-29 20:00:48 · 3345 阅读 · 0 评论 -
spark学习之宽依赖,窄依赖
目录一:何为宽,何为窄二:宽窄之程序运行效率比较三:具体比较如图(细化到 task,executor)一:何为宽,何为窄以子Rdd对父Rdd的依赖关系为纬度,1对1为窄,反之则宽!二:宽窄之程序运行效率比较例子1: 窄依赖在自己的节点中,逐个元素地执行map、然后filter操作,父RDD节点的计算不用等待其它父节点的计算结果。...原创 2019-04-24 19:27:42 · 2405 阅读 · 0 评论 -
Spark的三种提交模式
目录一:模式分类二:模式适合情景三:图形化流程一:模式分类1.standalone:Master-Worker集群 —— 见博文:《 SparkContext内核架构深度剖析》2.yarn-cluster:(cluster:英 ['klʌstə] n. 群;丛)spark-submit ———》 ResourceManager ————》 NodeManager...原创 2019-04-28 16:40:41 · 2979 阅读 · 0 评论 -
Spark之Transformation入门
目录1.常用transformation介绍2.transformation 案例实战1.常用transformation介绍 map 将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDD filter 对RDD中每个元素进行判断,如果返回true则保留,返回false则剔...原创 2019-04-18 20:12:01 · 1441 阅读 · 0 评论 -
Spark 架构原理
目录1.Driver2.Master3.Worker4.Executor5.Task1.Driver提交Spark程序的机器,在Master上进行Spark程序的注册2.Master负责资源调度和分配(某节点)3.Worker用内存进行存储数据,用内存对数据进行计算(某节点)4.Executor(进程),对Driver进行反向注册5....原创 2019-04-15 01:41:01 · 1326 阅读 · 0 评论 -
spark基本工作原理
目录1.Spark基本工作原理2.Spark RDD3.Spark 核心编程流程1.Spark基本工作原理1.Client进行Spark程序编写后提交到集群上运行2.先从 Hadoop 上获取相应数据形成 RDD3.而后对RDD按照需要进行计算或迭代计算2.Spark RDD1.抽象的分布式HDFS文件的数据集(Resillient Distribute...原创 2019-04-14 01:06:13 · 156 阅读 · 0 评论 -
spark学习之 action 与 transformation 比较
目录一:action 与 transformation 的区别二:action 与transformation 算子的捉对比较一:action 与 transformation 的区别1.RDD 的操作: (1)transformation操作:得到一个新的RDD,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD 常见:数据之间...原创 2019-04-25 19:40:32 · 3270 阅读 · 0 评论 -
Spark之Action入门
目录1.常用action介绍2.action 案例实战1.常用action介绍 reduce 将RDD中的所有元素进行聚合操作。第一个和第二个元素聚合,值与第三个元素聚合,值与第四个元素聚合,以此类推。 collect 将RDD中所有元素获取到本地客户端。 count ...原创 2019-04-25 19:38:14 · 2266 阅读 · 0 评论 -
Spark 高级编程(三):topn
1.目的例子: 将上面图片中的数据,以班级为维度,获取到前三名的信息2.思路(1)先依据 className进行聚合(2)使用冒泡排序摘选数据(重点)3.代码package cn.spark.study.core;import java.util.Arrays;import java.util.Iterator;import org.apache.s...原创 2019-04-30 17:59:11 · 3293 阅读 · 0 评论
分享