spark
文章平均质量分 79
创作者mateo
大数据专业,大数据行业从事者。帮忙辅导作业。免费教学大数据,而且本人还带徒弟哦!!!!文章末尾有v,获取资料
展开
-
Spark MLlib ----- ALS算法
在谈ALS(Alternating Least Squares)之前首先来谈谈LS,即最小二乘法。LS算法是ALS的基础,是一种数优化技术,也是一种常用的机器学习算法,他通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。LS也被用于拟合曲线,比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y1),(x2,y2),(x3,y3)…}其符合线性回归,假设其符合的函数为如下:y = w+ wx。原创 2024-01-08 17:49:57 · 1993 阅读 · 0 评论 -
spark学习一-------------------Spark算子最详细介绍
简介map算子:map算子是将rdd中的数据一条一条传递给后面的函数,将函数的返回值构建成一个新的rdd。map算子是不会生成shuffle。后面的分区数等于map算子的分区数。//saprk代码的入口/*** 构建rdd的方法* 1.读取文件* 2.基于scala的集合构建rdd ---- 用于测试*//*** map算子* 将rdd中的数据一条一条传递给后面的函数,将函数的返回值构建成一个新的rdd* map 不会产生shuffle,map之后的分区数等于map之前rdd的分区数。原创 2023-11-28 09:48:55 · 548 阅读 · 0 评论 -
spark学习-----Spark 算子
学习之前先介绍一下什么是sparkSpark 是基于内存计算的大数据并行计算框架,因为它基于内存计算,所以提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集群。RDD介绍RDD概念RDD(Resilient Distributed Dataset) 弹性分布式数据集 , 是 Spark 中最基本的数据对象,它代表一个不可变,可区,里面的元素可并行计算的集合。这里虽然是集合但是里面却没有数据。特点自动容错性.原创 2022-03-25 10:04:37 · 2238 阅读 · 0 评论 -
spark学习----SparkContext理解、资源调度及源码分析
SparkContext详细理解原创 2022-03-16 15:07:45 · 671 阅读 · 0 评论