《机器学习实战》第10章学习笔记(k-Means)

本文详细介绍了聚类任务,特别是k-Means算法及其改进的二分k-Means算法。讨论了聚类性能度量,包括外部指标和内部指标,并详细阐述了K-Means算法的定义、过程、实现代码及结果展示。同时,二分k-Means算法通过不断划分以降低SSE,直至达到预定簇数。
摘要由CSDN通过智能技术生成

一、聚类

1.1聚类任务

聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)。

1.2 性能度量

聚类性能度量亦称聚类“有效性指标”(validity index)。与监督学习中的性能度量作用类似,对于聚类结果,我们需要通过某种性能度量来评估其好坏;另一方面,若明确了最终要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。

1.2.1 常用的外部指标:

1.2.2 常用内部指标


1.3  距离计算

                     


二、K-Means算法

2.1 定义

K-Means算法可以发现k个不同的簇, 且每个簇的中心采用簇中所含值的均值计算而成。

2.2 K-Means算法过程

2.3 实现代码

                
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值