K-Means算法

最新推荐文章于 2024-06-25 13:31:56 发布

chiyustory

最新推荐文章于 2024-06-25 13:31:56 发布

阅读量388

点赞数

分类专栏：机器学习文章标签： K-Means

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/attitude_yu/article/details/84205736

版权

K-Means算法是一种无监督学习方法，用于数据聚类。算法思想包括将样本划分为预设数量的簇，并通过迭代优化簇中心。其优点是简单易实现，当簇接近高斯分布时效果显著；缺点是需要预先设定类别数K，计算量大，且初始簇中心选择对结果影响显著。此外，异常点可能导致精度降低。文章还涉及K-Means的代码实现，使用了鸢尾花数据集并比较了自编和sklearn库的算法结果。

摘要由CSDN通过智能技术生成

1. 算法思想

K-Means算法，也称为K-均值算法，是一种无监督算法，即数据集无标签。一般做法是，往往先对数据进行聚类，根据聚类结果将每个簇定义为一个类，然后再基于这些类训练分类模型，输入测试样本判断类别。

聚类就是将数据集中的样本划分到指定数量的互不相干的子集中，每个子集就是一个簇。

2. 算法流程

图片取自《机器学习》周志华

3. 算法的优缺点

优点：

1. 算法简单，易于理解和实现；

2. 当簇接近高斯分布时，聚类效果较好；

缺点：

1. 类别数，即K需要实现指定，有时难以正确估计到此值；

2. 当数据量较大时，由于需计算样本之间的距离，计算量；

3. 初始的均值向量是随机选取的，此选取情况对后续结果影响较大；

4. 当存在异常点时，使得均值向量发生偏移，导致结果精度下降；

4. 代码实现

1. 训练数据使用鸢尾花数据集

2. 计算样本的距离使用的是欧式距离法

3. 对比自编K-Means与sk

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄7年

57
原创

238
点赞

1539
收藏

186
粉丝

关注

私信

分类专栏

C++ 5篇
OpenCV 3篇
迁移学习 8篇
Python 4篇
数据结构 7篇
随记 4篇
机器学习 10篇
计算机视觉 14篇
笔试&面试 2篇

最新评论

源领域和目标领域过程相似性分析
zhndsb: 我想请问一下，如果我有多个与目标域相似的源域，那么去度量不同源域与目标域之间的相似性从而选取源域，这一问题是否有价值
神经网络算法(基于Tensorflow、基于Python实现BP)
飞飞鱼_: 数据集在哪里呢？
计算不规则四边形(多边形)的面积
hfliu96: 你好，海伦公式部分有错，本人修正如下[code=python]# 基于海伦公式计算不规则四边形的面积 def helen_formula(coord): coord = np.array(coord).reshape((4, 2)) # 计算各边的欧式距离 dis_01 = cal_distance(coord[0], coord[1]) dis_12 = cal_distance(coord[1], coord[2]) dis_23 = cal_distance(coord[2], coord[3]) dis_30 = cal_distance(coord[3], coord[0]) dis_13 = cal_distance(coord[1], coord[3]) p1 = (dis_01 + dis_13 + dis_30) * 0.5 p2 = (dis_12 + dis_23 + dis_13) * 0.5 # 计算两个三角形的面积 area1 = np.sqrt(p1 * (p1 - dis_01) * (p1 - dis_13) * (p1 - dis_30)) area2 = np.sqrt(p2 * (p2 - dis_12) * (p2 - dis_23) * (p2 - dis_13)) return area1 + area2 [/code]
C++结构体的各种用法
WiserX: p point =&stu1;这句我的编译器报错
AdaBoost.M1算法
dreamfly844: 更新权重这里貌似应该更新正确分类的权重

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。