ML_K-Means小结

最新推荐文章于 2022-12-09 17:55:48 发布

Davidmvp

最新推荐文章于 2022-12-09 17:55:48 发布

阅读量219

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Davidmvp/article/details/99242354

版权

相关资料：https://www.cnblogs.com/pinard/p/6164214.html

几个距离公式：https://blog.csdn.net/u011734144/article/details/80249304

1.有关聚类与分类的区别

分类：类别是已知的，通过对已知分类的数据进行训练和学习，找到这些不同类的特征，再对未分类的数据进行分类。属于监督学习。

聚类：事先不知道数据会分为几类，通过聚类分析将数据聚合成几个群体。聚类不需要对数据进行训练和学习。属于无监督学习。

关于监督学习和无监督学习，这里给一个简单的介绍：是否有监督，就看输入数据是否有标签，输入数据有标签，则为有监督学习，否则为无监督学习。

2.KNN和K-Means区别

K-Means是无监督学习的聚类算法，没有样本输出；而KNN是监督学习的分类算法，有对应的类别输出。KNN基本不需要训练，对测试集里面的点，只需要找到在训练集中最近的k个点，用这最近的k个点的类别来决定测试点的类别。而K-Means则有明显的训练过程，找到k个类别的最佳质心，从而决定样本的簇类别。

3.k-means解决的问题

k-means算法属于无监督学习的一种聚类算法，其目的为：在不知数据所属类别及类别数量的前提下，依据数据自身所暗含的特点对数据进行聚类。对于聚类过程中类别数量k的选取，需要一定的先验知识，也可根据“类内间距小，类间间距大“（一种聚类算法的理想情况）为目标进行实现。

4.k-means原理介绍

K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。(核心思想） k-means算法以数据间的距离作为数据对象相似性度量的标准，因此选择计算数据间距离的计算方式对最后的聚类效果有显著的影响，常用计算距离的方式有：余弦距离、欧式距离、曼哈顿距离等。本文以欧式距离为例（会一种，其余也就会了）。在第二个链接里有关于距离公式的计算。

有关质心的选取：

一般来说，我们会根据对数据的先验经验选择一个合适的k值。1.该类所有数据的均值； 2.随机取k个数据作为类心；3.选取距离最远的k个点作为类心等。然后初始化质心，注意不能太近。

算法流程：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML_K-Means小结

相关资料：https://www.cnblogs.com/pinard/p/6164214.html几个距离公式：https://blog.csdn.net/u011734144/article/details/802493041.有关聚类与分类的区别分类：类别是已知的，通过对已知分类的数据进行训练和学习，找到这些不同类的特征，再对未分类的数据进行分类。属于监督学习。聚类：事先不知...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。