Spark Core
Spark技术栈组件之一
struggle@徐磊
知识重要,态度更重要!
展开
-
Spark中flatMap 和 map的区别
private val value1: RDD[Array[String]] = value.map(_.split(","))# flatMap 简而言之flatMap起到的作用就是压缩的,吧以 逗号切割之后的,又重新弄到一块private val value2: RDD[String] = value.flatMap(_.split(","))...原创 2020-04-03 15:06:46 · 349 阅读 · 0 评论 -
运用广播变量(关键词:broadcast())查找每个ip所对应的地址,以及每个地址出现的频率;int转十进制的方法;二分查找的方法
package com.day_215import org.apache.spark.{SparkConf, SparkContext}object IPLocation { //*****************************将传进来的数转换成10进制的数 def ip2Long(ip: String): Long = { val fragments = ip....原创 2020-02-16 18:23:04 · 630 阅读 · 0 评论 -
蒙特卡洛求π
package com.Lastimport org.apache.spark.{SparkConf, SparkContext}/** * TODO * * @author 徐磊 * @email wc199608203213@136.com * @data2020/02/16 下午 02:34 * @最终需求效果: 先定义两个数然后把数装进sc然后再进行计算 */o...原创 2020-02-16 17:26:36 · 606 阅读 · 0 评论 -
GroupBykey 和ReduceBykey 的效率比较
groupBykey 和reduceBykey 的效率比较groupBykey hello出现次数多,造成数据倾斜reduceBykey 预聚合 --> 全局聚合原创 2020-02-16 10:34:42 · 524 阅读 · 0 评论 -
Spark的shell界面操作(RDD算子类型:转换算子,执行算子,控制算子)
目录HADOOP和Spark生态圈bin 目录下spark-shell 命令进入Spark Shell 中算子的操作 (转换算子和执行算子)单节点基于standload的进入方式单节点基于yarn调度的进入方式HADOOP和Spark生态圈bin 目录下spark-shell 命令进入Spark Shell 中算子的操作 (转换算子和执行算子)...原创 2020-02-07 19:17:37 · 771 阅读 · 0 评论 -
SparkRDD的DAG(有向无环图)
概念原始的RDD经过一系列的转换就就形成了DAGStage(调度阶段)根据RDD的宽窄依赖又把DAG划分为不同的Stage,宽依赖是划分Stage的依据。DAG优化先按宽依赖进行切分,然后再把每个窄依赖封装成Task(Task跟partition有关,一个partition里面有一个task)运行在executor中;正因为有转换算子和action算子才得以让把每个窄依赖封装成一个ta...原创 2020-02-15 21:34:11 · 697 阅读 · 0 评论 -
SparkRDD版的Wordcount求和
package com.spark.comimport org.apache.spark.storage.StorageLevelimport org.apache.spark.{SparkConf, SparkContext}/** * TODO * * @author 徐磊 * @email wc199608203213@136.com * @data2020/01/07 ...原创 2020-02-14 19:49:41 · 415 阅读 · 0 评论 -
RDD自定义分区方法(按班级把同一个班级的学生放到一个文件中)和自定义排序方法(先按数学成绩排序,数学成绩相同再按语文成绩排序)
自定义排序例题:先按照数学成绩进行倒叙排序 如果数学成绩相同 语文成绩谁高谁在前tom 98 66jack 55 55bob 98 44joe 44 99max 60 79peter 60 55jerry 60 99kay 99 99kim 98 99代码实现 带*****号表示是 关键词object Z_Stor extends App { v...原创 2020-02-14 19:36:18 · 695 阅读 · 0 评论 -
SparkRDD缓存机制(cache,persist)检查点机制(容错机制):Checkpoint
目录RDD缓存(缓存算子都是延迟算子,都需要执行算子激活)一、persist二、cache三、persist和cache的缺点:注意事项:四、persist和cache的 不同点:相同点:五、Checkpoint5.1、使用Checkpoint的必要性5.2、Persist和Checkpoint使用场景5.3、Checkpoint使用方法...原创 2020-02-04 11:29:50 · 990 阅读 · 0 评论 -
SparkRDD的介绍JAVAAPI操作
目录一、RDD五大特性1,RDD 有三个基本特性2,RDD 的结构二、RDD的API操作一、RDDSpark 中最基本的数据抽象是 RDD。RDD:弹性分布式数据集 (Resilient Distributed DataSet)。五大特性 RDD是有一系列的partition组成 函数作用在每个partition上 RDD有...原创 2020-02-03 09:44:16 · 228 阅读 · 1 评论 -
RDD从mysql中读取数据和RDD往数据库中存数据
package com.day_212import java.sql.DriverManagerimport org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}/** * TODO * * @author 徐磊 * @email wc199608203213@136.com...原创 2020-02-12 20:47:49 · 624 阅读 · 0 评论