![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
问题不太大
这个作者很懒,什么都没留下…
展开
-
Spark MLlib基于K-Means实现数据聚类
Spark MLlib基于K-Means实现数据聚类K-MeansK-Means简介算法实现原则Spark实现K-MeansSpark机器学习库算法步骤完整代码(基于spark.ml)K-MeansK-Means简介 k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之原创 2020-09-07 08:46:42 · 48655 阅读 · 4 评论 -
使用MapReduce实现定图的最小生成树
使用MapReduce实现定图的最小生成树如何实现计算最小生成树什么是最小生成树最小生成树的性质使用`Kruskal`算法实现最小生成树Kruskal算法简述实现逻辑MapReduce实现`Kruskal`算法如何实现计算最小生成树什么是最小生成树在一给定的无向图G = (V, E) 中,(u, v) 代表连接顶点 u 与顶点 v 的边(即),而 w(u, v) 代表此边的权重,若存在 T 为 E 的子集(即)且为无循环图,使得w(T)=∑(u,v)∈tw(u,v)w(T) = \sum_{(u,原创 2020-09-07 08:46:59 · 47572 阅读 · 4 评论 -
Spark ML计算皮尔逊相似度案例
Spark ML 计算两用户间的皮尔逊相似度功能说明数据格式及说明设计思路Spark ML 计算皮尔逊相关系数代码(Scala)功能说明该程序根据不同用户对不同电影的评分情况,通过Spark ML中Correlation.corr函数计算用户之间的皮尔逊相关矩阵。数据格式及说明该数据为模拟数据。X A:5.0,B:1.0,C:2.0,D:0Y A:3.0,B:1.0,C:2.0,D:3.00其中X、Y分别代表两个用户A-D代表电影名称,电影名后面代表该用户的评分注意:实原创 2020-07-08 17:58:57 · 30331 阅读 · 2 评论 -
Spark MLlib机器学习 Pipelines
Spark ML PipelinesML管道管道的主要概念DataFramePipeline components(管道组件)Transformers(转换器)Estimators(估算器)Properties of pipeline components(管道组件属性)Pipeline(管道)工作流程详细参数ML持久性:Saving and Loading Pipelines持久性的向后兼容代码示例Estimator, Transformer, and ParamPipelineML管道管道的主要概念原创 2020-07-02 22:04:47 · 29184 阅读 · 0 评论 -
Spark入门( 九)——机器学习 Spark MLlib
Spark MLlib机器学习是什么?机器学习Spark MLlibSpark MLlib案例快速入门基本统计Correlation(相关性)Hypothesis testing(假设检验)Summarizer(总结器)未完待续。。。机器学习是什么?机器学习数据挖掘有着50多年的发展历史。机器学习就是其子领域之一,特点是利用大型计算机集群来从海量数据中分析和提取知识机器学习与计算统计学密切相关。它与数学优化紧密关联,为其提供方法、理论和应用领域。机器学习在各种传统设计和编程不能胜任的计算机任务中有广原创 2020-06-24 13:13:59 · 29211 阅读 · 0 评论