![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
caijq_newid
初级
展开
-
Apache Spark Day6
Apache Spark Day6自定义函数spark内置很多函数都定义在org.apache.spark.sql.functions单例对象中,如果不满足实际需求,大家可以考虑对Spark函数库进行扩展。√单行函数1、定义函数val sexFunction=(sex:Boolean)=> sex match { case true => "男" case false => "女" case default => "unkonwn"}val com原创 2020-11-05 09:22:39 · 201 阅读 · 0 评论 -
Apache Spark Day5
Apache Spark Day5Window OperationsSpark Streaming还提供了窗口计算,可让您在数据的滑动窗口上应用转换。下图说明了此滑动窗口。如图所示,每当窗口在源DStream上滑动时,落入窗口内的源RDD就会合并并对其进行操作,以生成窗口DStream的RDD。在上图中,该操作将应用于数据的最后3个时间单位,并以2个时间单位滑动。这表明任何窗口操作都需要指定两个参数。窗口长度-窗口的持续时间(3倍时间单位)。滑动间隔-进行窗口操作的间隔(2倍时间单位)。注原创 2020-11-03 18:15:09 · 140 阅读 · 0 评论 -
Apache Spark Day4
Apache Spark Day4Spark流计算概述一般流式计算会与批量计算相比较。在流式计算模型中,输入是持续的,可以认为在时间上是无界的,也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也是无界的。流式计算一般对实时性要求较高,同时一般是先定义目标计算,然后数据到来之后将计算逻辑应用于数据。同时为了提高计算效率,往往尽可能采用增量计算代替全量计算。批量处理模型中,一般先有全量数据集,然后定义计算逻辑,并将计算应用于全量数据。特点是全量计算,并且计算结果一次原创 2020-11-01 13:51:05 · 96 阅读 · 0 评论 -
Apache Spark Day3
Apache Spark Day3RDD进阶(面试)分析WordCountsc.textFile("hdfs:///words/t_word") //RDD0 .flatMap(_.split(" ")) //RDD1 .map((_,1)) //RDD2 .reduceByKey(_+_) //RDD3 finalRDD .collect原创 2020-10-30 09:13:29 · 170 阅读 · 0 评论 -
Apache Spark Day2
Apache Spark Day2DD OperationsRDD支持两种类型的操作:transformations-转换,将一个已经存在的RDD转换为一个新的RDD,另外一种称为actions-动作,动作算子一般在执行结束以后,会将结果返回给Driver。在Spark中所有的transformations都是lazy的,所有转换算子并不会立即执行,它们仅仅是记录对当前RDD的转换逻辑。仅当Actions算子要求将结果返回给Driver程序时transformations才开始真正的进行转换计算。这种设原创 2020-10-29 09:03:56 · 119 阅读 · 0 评论 -
Apache Spark Day1
Apache Spark概述Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7iiljcWL-1603847802041)(D:/sources/大数据/Hadoop/spark内存计原创 2020-10-28 09:17:01 · 219 阅读 · 0 评论