![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark学习
文章平均质量分 70
spark+scala入门
东流-beyond the label
这个作者很懒,什么都没留下…
展开
-
基于Spark的离线电影推荐
文章目录系统需求分析以及流程设计需求数据源流程图数据存储及表的设计实验环境搭建主要环境数据加载转换以及存储数据读取数据处理数据存储TopN基于模型的推荐算法结果处理及存储基于物品的推荐算法 系统需求分析以及流程设计 需求 基于spark集群实现离线电影推荐 推荐结果可以可视化(未实现) 数据源 包括两个数据文件,分别是ratings.dat和movies.dat。 首先是ratings.dat,用户评分数据记录表。包含了用户对电影的评分信息。 然后是movies.dat,电影信息表。包含了电影名电影类原创 2021-06-24 11:26:43 · 3613 阅读 · 4 评论 -
spark RDD
spark rdd概要原创 2021-05-27 10:20:59 · 265 阅读 · 0 评论 -
RDD常见转化算子和行动算子
/** * RDD被创建后是只读的,不允许被修改。spark提供了丰富的用于操作RDD的方法,这些方法被称为算子。 * 一个创建完成的RDD只支持两种算子:转化算子和行动算子。 * 转化算子: * 负责对RDD中的数据进行计算并转化为新的RDD。 * Spark中所有的转化算子都是惰性的,因为他们不会立即计算结果, * 而是记住对某个RDD的具体操作过程,直到遇到行动算子才会和行动算子一起执行。 */ 常见转化算子 val sparkConf = new SparkConf().setM原创 2021-05-26 13:09:08 · 958 阅读 · 0 评论 -
spark简单实例wordcount
计算流程: 项目依赖pom.xml <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>3.0.1</version> </de原创 2021-05-23 23:18:50 · 374 阅读 · 0 评论 -
spark的Driver&Executor
通过serversocket的client-server模式简单模拟driver向executor提交计算任务的过程原创 2021-05-23 23:09:55 · 204 阅读 · 2 评论