spark
文章平均质量分 76
卡卡东~
人脑像计算机也不够
展开
-
Structured Streaming 编程模型(Input Table、Result Table、Output Mode...)
Structured Streaming的编程模型,顺带会总结Structured Streaming与Spark Streaming的区别转载 2022-07-18 15:24:13 · 350 阅读 · 0 评论 -
使用ALS算法的一个电影推荐模型(java操作Spark-ML)
使用ALS算法的一个电影推荐模型(java操作Spark-ML)原创 2022-07-15 21:00:00 · 665 阅读 · 0 评论 -
Java操作spark-自定义累加器
Java操作spark-自定义累加器累加器是Spark 计算框架为了能够进行高并发和高吞吐的数据处理封装的三大数据结构之一,功能是实现分布式共享只写变量。累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量,在Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行merge。以此来实现变量的共写。累加器...原创 2022-06-17 21:00:00 · 986 阅读 · 0 评论 -
spark:使用java语言理解scala
最近看的spark学习视频,视频里面都是用scala操作spark的,对scala语言学习较少,想要入门,可以通过下面的这个例子去用java语言思想去理解scala。主要是函数式编程思想:==一种Map Reduce的计算示例==原创 2022-02-22 18:12:03 · 1684 阅读 · 4 评论 -
Spark中的transformation和action、element和partition
Spark中transformation和action是RDD中两个重要的组成部分,也可以理解为一个完整的RDD任务由这两部分操作组成。在transformation和action操作下,也有两个重要的概念element和partition原创 2021-12-17 16:01:57 · 1265 阅读 · 0 评论 -
SparkStreaming学习笔记
Spark学习笔记一Spark核心模块Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark 和Hadoop 的根本差异是多个作业之间的数据通信问题 : Spark 多个作业之间数据通信是基于内存,而 Hadoop 是基于磁盘。Spark核心模块...原创 2021-12-07 18:01:19 · 1573 阅读 · 1 评论