Spark 聚类算法 ---- kmeans 简介，源码分析

最新推荐文章于 2024-08-05 10:55:11 发布

shiter

最新推荐文章于 2024-08-05 10:55:11 发布

阅读量609

点赞数

分类专栏：大数据机器学习实践探索基于大数据的机器学习原理与最佳实践文章标签： spark KMeans

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyaninglm/article/details/117386989

版权

大数据机器学习实践探索同时被 2 个专栏收录

130 篇文章 124 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

基于大数据的机器学习原理与最佳实践

81 篇文章 140 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

文章大纲

KMeans 算法简介
- spark 实现1： KMeans||
- spark 实现2：二分 KMeans
源码解读
- 输入参数
- KMeansModel
聚类评估
实践案例
参考文献

聚类与分类是数据挖掘中常用的两个概念，它们的算法和计算方式有所交叉和区别。一般来说分类是指有监督的学习，即要分类的样本是有标记的，类别是已知的；聚类是指无监督的学习，样本没有标记，根据某种相似度度量把样本聚为k类。

聚类，顾名思义就是把一组对象划分成若干类，并且每个类中对象之间的相似度较高，不同类中对象之间相似度较低或差异明显。聚类是无监督学习的一种。聚类的目的是分析出相同特性的数据，或样本之间能够具有一定的相似性，即每个不同的数据或样本可以被一个统一的形式描述出来，而不同的聚类群体之间则没有此项特性。聚类与分类有着本质的区别，一个属于无监督学习，而一个属于有监督学习。监督学习的意思是指，有着特定的目标或者明确的区别，即人为可分辨。无监督学习则没有特定的规则和区别。聚类与分类的不同之处在于，聚类算法在工作前并不知道结果如何，不会知道最终将数据集或样本划分成多少个聚类集，每个聚类集之间的数据有何种规则。聚类的目的在于发现数据或样本属性之间的规律，可以通过何种函数关系式进行表示。

聚类的要求是统一聚类集之间相似性最大，而不同聚类集之间相似性最小。

聚类分析计算方法主要有如下几种：

划分算法
层次算法
密度算法
图论聚类法

了解本专栏

超级会员免费看

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shiter 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。