spark
sq0723
这个作者很懒,什么都没留下…
展开
-
Spark MLlib 机器学习算法(一)
一 协同过滤算法协同过滤(Collaborative filtering)算法是一种基于群体用户或者物品的典型推荐算法,主要有两种:一种是通过考察具有相同爱好的用户对相同物品的评分标准进行计算。一种是考察具有相同特质的物品从而推荐给选择了某件物品的用户。协同过滤算法关键是计算相似度,主要有以下几种方法:1、 基于欧几里得距离计算公式:主要从不同目标的绝对差异性考虑2、 基于余弦角度计算公式:主要从方向趋势上考虑3、 交替最小二乘法(ALS)Val ratings = data.map原创 2020-12-25 11:34:56 · 447 阅读 · 0 评论 -
Spark MLlib数据类型和数理统计
一、 数据类型Spark MLlib基本数据类型包括:1) 本地向量集,主要向spark提供一组可操作的数据集。向量包括稀疏型数据集(spares)和密集型数据集(dense)。代码示例如下: val vd:Vector = Vectors.dense(2,0,6) //密集型 val vs:Vector = Vectors.sparse(4,Array(0,1,2,3),Array(9,5,2,7))2) 向量标签,让用户能够分类不同的数据集合。代码示例如下: //使原创 2020-12-24 18:37:55 · 514 阅读 · 1 评论 -
spark源码编译
Apache版本,jdk1.8,spark2.1.0,hadoop2.6.0,scala2.11.8,maven3.6.0在编译spark之前,jdk,scala,hadoop,maven都要安装完成,此处省略这些安装1、git clone代码git clone https://github.com/apache/spark.gitdu -sh spark 查看sprk下载大小切换目录...原创 2019-03-13 22:38:05 · 103 阅读 · 0 评论 -
spark学习笔记(一)
一、spark是什么扩展了mapreduce的计算模型,高效的支持多种计算模型。Spark Core 实现了Spark 的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark SQL 是Spark 用来操作结构化数据的程序包。使用hive sql,支持多种数据格式。Spark 提供的对实时数据进行流式计算的组件。本质是微批处理Spark 提供的包含常见机器学习(...原创 2019-05-21 22:59:10 · 450 阅读 · 0 评论 -
spark学习笔记(二)----运行模式、spark-submit
spark运行模式1、application program组成Job:包含多个Task 组成的并行计算,跟Spark action对应Stage:Job 的调度单位,对应于TaskSetTaskset:一组关联的、相互之间没有shuffle 依赖关系的任务组成的任务集Task:被送到某个executor 上的工作单元2、运行流程(以standalone为例)程序提交,spark...原创 2019-05-21 23:34:37 · 2071 阅读 · 0 评论