Spark
Frank201608
加油吧
展开
-
Spark算子系列第0篇:spark常用算子详解
一、Spark算子分类:Transformation 算子Transformation是变换/转换算子,具有lazy特性,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。常用操作有:map,filter,flatMap,union,sortByKey,reduceByKey等,官方文档如下:http://spar...原创 2020-02-08 16:00:00 · 524 阅读 · 0 评论 -
Spark算子系列第1篇: reduceByKey 和 groupByKey
第一步:创建RDDval words = Array("one", "two", "two", "three", "three", "three")val wordsRDD = sc.parallelize(words).map(word => (word, 1))wordsRDD.foreach(println)RDD运行结果如下:/*(one,1)(two,1)...原创 2020-02-08 11:24:34 · 609 阅读 · 0 评论 -
Spark:WordCount 步骤
scala> val data = sc.textFile("/library/wordcount/input/Data")//data: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[9] at textFile as <console>:27scala> val flatted = data.flatM...原创 2019-04-21 21:03:45 · 193 阅读 · 0 评论 -
第55课: 在线广告点击流处理代码的分析和实现
第55课: 在线广告点击流处理代码的分析和实现原创 2016-09-28 15:53:33 · 762 阅读 · 1 评论 -
第54课: 作业讲解与广告点击实现代码
第54课: 作业讲解与广告点击实现代码原创 2016-09-28 13:48:54 · 516 阅读 · 0 评论 -
第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战
第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战原创 2016-09-28 09:40:44 · 708 阅读 · 0 评论 -
第58课: 广告点击广告累计点击数分析与实现
第58课: 广告点击广告累计点击数分析与实现原创 2016-10-12 10:36:14 · 1142 阅读 · 0 评论 -
第51课: Spark大型项目下的Spark Streaming本质剖析
第51课: Spark大型项目下的Spark Streaming本质剖析(全面涵盖Spark 2.0的精髓)原创 2016-09-21 20:54:59 · 1132 阅读 · 0 评论 -
第50课:Spark 2.0项目概述
第50课程 Spark 2.0项目概述原创 2016-09-21 19:56:05 · 678 阅读 · 0 评论 -
第37课:Spark中Shuffle详解及作业
第37课:Spark中Shuffle详解及作业原创 2016-09-14 19:26:13 · 13044 阅读 · 3 评论 -
第52课: Spark大型项目广告点击项目数据建模
Spark大型项目广告点击项目数据建模原创 2016-09-23 08:42:19 · 984 阅读 · 0 评论 -
第48课: Spark 2.0内幕深度解密和学习最佳实践
第48课: Spark 2.0内幕深度解密和学习最佳实践原创 2016-09-18 20:31:22 · 1085 阅读 · 0 评论 -
第34课:在IDEA中开发Spark实战
第34课:在IDEA中开发Spark实战原创 2016-09-12 11:18:47 · 1023 阅读 · 0 评论 -
第36课:Spark中Job执行过程详解
第36课:Spark中Job执行过程详解原创 2016-09-14 13:50:39 · 4031 阅读 · 0 评论 -
第35课Spark Master、Worker、Driver、Executor工作流程详解
第35课Spark Master、Worker、Driver、Executor工作流程详解原创 2016-09-12 23:10:56 · 23362 阅读 · 2 评论 -
第33课:Spark架构剖析零基础初探
理解Spark架构,至关重要, 下面分布讲解Spark实现架构。 1. Spark部署图: 解释: 1)Driver Program 如果用做公司做项目来打比喻整个Spark集群,那么Driver就相当于PM,负责给Engineer(Executor)分配任务,由每个Engineer来并行完成部分工作。由PM来管理协调整个项目,包括容错。2)Cluster Manager 负责管理和分配原创 2016-09-11 17:42:53 · 920 阅读 · 0 评论 -
大数据Spark“蘑菇云”行动-第11课:Scala面向接口彻底实战和Spark源码鉴赏
Scala中的接口,原创 2016-08-17 08:41:24 · 1011 阅读 · 0 评论