机器学习算法笔记-聚类

最新推荐文章于 2024-05-15 14:21:36 发布

diudiu~bo

最新推荐文章于 2024-05-15 14:21:36 发布

阅读量426

点赞数 1

分类专栏：机器学习经典算法文章标签：算法机器学习 sklearn

本文链接：https://blog.csdn.net/weixin_39835296/article/details/119939432

版权

本文介绍了k-means聚类算法的基本概念、评价指标、参数选择，以及在图像分割和半监督学习中的应用。同时，讨论了DBSCAN聚类算法，包括其基本概念、参数选择及其优缺点。k-means的优点是简单快速，但k值的选取是个挑战；DBSCAN则能发现任意形状的簇，但参数调整较困难。

摘要由CSDN通过智能技术生成

k-means聚类

相比于之前的线性回归和逻辑回归，k-means聚类算法属于无监督问题，因为没有标签，所以评估比较困难。

要得到簇的个数，需要指定k值
质心：均值，即向量各维的平均
距离的度量：常用欧氏距离得距离和余弦相似度（先标准化）
优化目标：每一簇内所有点离质心的距离最短。
优点和缺点：
优点，简单，快速，适合常规数据集。
缺点，k难确定，复杂度与样本呈线性关系，很难发现任意形状的簇（就是形状比较随意的那种）。

k-means每次分类的结果不一定完全一样

**inertia：**所有样本点到各自所属类的距离的平方，越小越好。可以设置多次迭代，计算inertia，取inertia最小聚类结果。
轮廓系数
轮廓系数的参数有两个：
（1）ai：计算样本i到同簇其他样本的平均距离ai，ai乘坐样本的簇内不相似度，越小越好
（2）bi：计算样本i到其他簇的所有样本的距离，称为样本与簇Cj的不相似度，bi是其中所有距离的最小值，称为样本的簇间不相似度。
结论

关注