机器学习系列(14)——K均值聚类

本文介绍K均值(KMeans)聚类算法。

 

0x01、k均值聚类简介

K均值聚类是基于样本集合划分的聚类算法。K均值聚类将样本集合划分为K个子集,构成K个类,将n个样本分到K个类中,每个样本到其所属类的中心的距离最小。每个样本只能属于一个类,所以K均值聚类是硬聚类。

1、模型

给定 n 个样本的集合 X= \left\{ x_1, x_2, ...,x_n \right\},每个样本由一个特征向量表示,特征向量的维数是 mk 均值聚类的目标是将 n 个样本分到 k 个不同的类或簇中,这里假设 k<nk 个类 G_1, G_2,...,G_k 形成对样本集合 X 的划分,其中 G_i \cap C_j = \varnothing\bigcup_{i=1}^{k} G_i = X。用 C 表示划分,一个划分对应着一个聚类结果。

划分 C 是一个多对一的函数。事实上,如果把每个样本用一个整数 i \in \left\{ 1,2,...,n \right\} 表示,每个类也用一个整数 l \in \left\{ 1,2,...,k \right\} 表示,那么划分或者聚类可以用函数 l = C(i) 表示,其中 i \in \left\{ 1,2,...,n \right\}l \in \left\{ 1,2,...,k \right\}。所以k均值聚类的模型是一个从样本到类的函数。

2、策略

k 均值聚类归结为样本集合 X 的划分,或者从样本到类的函数的选择问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值