机器学习之聚类

最新推荐文章于 2024-10-03 09:02:12 发布

永远只有12划

最新推荐文章于 2024-10-03 09:02:12 发布

阅读量989

点赞数

文章标签： python 机器学习聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45274913/article/details/121460880

版权

聚类是常见的一种无监督学习方法，该训练的样本标记信息是未知的，聚类过程仅能自动形成簇结构，而簇结构对应的语义（标签）需要训练者自身理解命名。

样本集D={x1,x2....xm}包含m个无标记样本，每个样本xi={xi1,xi2....xin}n维特征变量，聚类算法将D划分成k个互不相交的簇，等.....

聚类算法涉及的两个基本问题：

性能度量和距离计算

所谓性能度量就是测试聚类效果的”簇内相似度“和”簇间相似度“，前者高后者低是较好的聚类结果。性能度量分为两类：

1.比较聚类结果给出的簇划分和参考模型给出的簇划分（外部指标）

2.直接考察聚类效果而不利用任何参考模型（内部指标）

距离计算采用明可夫斯基距离公式

k均值聚类算法（随机选取k个样本作为均值向量，然后将其他样本分别放进与上三个向量距离最近的一个形成初始的簇划分，重新计算每个簇的均值向量，不断重复上述过程知道簇划分不再改变）

密度聚类：理解如下概念

邻域

核心对象

密度直达

密度可达

密度相连

根据给定的领域参数找出所有核心对象，以任一核心对象为出发点找出其密度可达的样本生成聚类簇。

以上作为学习笔记，随时补充，代码后续补充......

永远只有12划

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。