大数据之数据挖掘理论笔记聚类问题之K-means

最新推荐文章于 2023-07-07 08:17:39 发布

houxiaoqin

最新推荐文章于 2023-07-07 08:17:39 发布

阅读量1.6k

点赞数

分类专栏：大数据算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/houxiaoqin/article/details/48931879

版权

大数据同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

大数据之数据挖掘理论笔记聚类问题之K-means

推荐参考博文： http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html

推荐参考博文： http://blog.csdn.net/cyxlzzs/article/details/7416491 试过了，确实可运行。

http://blog.csdn.net/ghostfromheaven/article/details/6516188

1. 聚类的理解

聚类是一个划分数据对象集的过程。一个数据对象集被划分为几个簇，并且簇内对象之间具有较高的相似性，但与其他簇中的对象却很不相似。划分依据往往是描述对象的属性值评估，通常涉及距离量度。划分方法采用聚类算法，即使对于相同的数据集，不同的聚类方法可能产生不同的聚类结果。

聚类的类标号信息是未知的（即每个训练元组隶属哪一类示先并未知晓），因此聚类是无监督学习。

2. 聚类应用领域

商务智能、图像识别、Web搜索等

聚类用于离群点检测 outlier detection（如：信用卡欺诈检测）

3. 聚类的两种经典方法

基于距离的方法 K-means

基于密度的方法 DBScan

4. K-means (K-均值)

聚类算法核心思想：把数据集中的对象分区，每个分区代表一个簇；簇的形成旨在优化一个客观划分准则（如基于距离的相异性函数，e.g.簇中所有对象与该簇代表形心之间的误差平方和），使得根据数据集的属性，在同一个簇中的对象相似，不同簇中的对象相异。

K-means算法的核心要点：1. K-means算法把簇的形心定义为簇内所有点的均值；2. 根据业务需求K示先给定。

5. K-means 算法过程简述：

initialization

1、从数据集D中随机取k个元素，作为k个簇的各自的中心。
2、分别计算剩下的元素到k个簇中心的相异度，将这些元素分别分配到相异度最低的簇。

repeat

3、根据聚类结果，重新计算k个簇各自的中心，计算方法是取簇中所有元素各自维度的算术平均数。
4、将D中全部元素按照新的中心重新聚类。

until
5、重复第4步，直到聚类结果不再变化。
6、将结果输出。

输入：K——簇的数目，即划分的组数；D——数据集

输出：聚类结果

6. 相异度的数学内函计算

推荐参考博文： http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html 之内容4.2相异度的计算

另外补充一句，博主给的例子很有趣~

7. K-means算法java实现

推荐参考博文： http://blog.csdn.net/cyxlzzs/article/details/7416491 试过了，确实可运行。

http://blog.csdn.net/ghostfromheaven/article/details/6516188

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。