机器学习之聚类（一）

最新推荐文章于 2025-04-08 18:56:32 发布

qq_30011515

最新推荐文章于 2025-04-08 18:56:32 发布

阅读量170

点赞数

文章标签：聚类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30011515/article/details/109703413

版权

一、聚类定义

聚类定义：
聚类是对大量未知标注的数据集，按数据的内在相似性将数据集划分为多个类别，使类别内的数据相似度较大而类别间的数据相似度较小；
一种无监督学习
相似度计算方法总结：
在这里插入图片描述
余弦相似度与Pearson相似系数：

相关系数即将x、y坐标向量各自平移到原点后的夹角余弦；也可以说明文档间求距离使用夹角余弦——物理量表征了文档去均值化后的随机向量间相关系数；
聚类的基本思想：
在这里插入图片描述

二、k-Means算法

k-Means算法定义：
在这里插入图片描述
k-means分类数据过程样例图：

k-Means公式化解释：

k-Means聚类方法总结：
k-Means对初值选取敏感；可以作为其他聚类方法基础算法，如谱聚类；
k-Means优点：
解决聚类问题的经典算法，简单、快速；
对处理大数据集，该算法保持可伸缩性和高效率；
当簇近似为高斯分布时，效果较好；
k-Means缺点：
在簇的平均值可被定义情况下才能使用，可能不适用于某些应用；
必须事先给出K（要生成的簇的数目），而且对初值敏感，对于不同的初始值，可能会导致不同结果。
不适合于发现非凸形状的簇或者大小差别很大的簇；
对噪声和孤立点数据敏感；

三、聚类衡量指标

Canopy算法：
在这里插入图片描述
衡量指标：

ARI定义：
AMI定义：

轮廓系数：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。