K-means

最新推荐文章于 2024-07-23 17:36:37 发布

Msunming

最新推荐文章于 2024-07-23 17:36:37 发布

阅读量427

点赞数

文章标签：算法

任务

数据: $m$ 个样本， $x^{(i)}$ 是n维的向量，{ ${{x^{(1)},...,x^{(m)}}}$ }
目标聚类

算法

随机初始化 $k$ 个聚类中心 $\mu_1,..\mu_k$ ，（对结果还是很有影响的，后面会采取一些措施弥补这种影响）。
对于每个样本， $do:$
$c (i) : = a r g m i n j | | x (i) - μ j | |$ $c^{(i)}:= argmin_j ||x^{(i)}-\mu_j||$
对于每个聚类中心， $do:$
$μ j : = \sum m i = 1 1 { c ( i ) = = j } x ( i ) \sum m i = 1 1 { c ( i ) = = j }$ $\mu_j := \frac{\sum_{i=1}^m1\{c^{(i)}==j\}x^{(i)}} {\sum_{i=1}^m1\{c^{(i)}==j\}}$
重复第二第三步，类别标签不再改变为止。

解析

算法的主要就是在完成两个步骤，
第一，不断的计算样本与聚类中心的距离，为当前每个样本进行分类
第二，根据新的样本，更新聚类中心。

收敛性的判断，评价的方法可以样本点到自己聚类中心距离的和(可以说明一定会收敛，函数值通过交替更新，一定是不断减小的，类似于EM思想，但是不一定是全局最优)

$J (c, μ) = \sum i = 1 m | | x (i) - μ c (i) | |$ $J(c , \mu)={ \sum_{i=1}^m ||x^{(i)}-\mu_{c^{(i)}}||}$

建议

实际运行过程中，运行多次，选取其中较好的一个，一般都会取得不错的效果（该算法的强大之处，很多时候是非常work的）。
在实际聚类过程中,聚类数目还是很难确定的，可以采取一些已有算法，分析得到其大致取值。
对于大样本，可能计算复杂度较高，需要做一些计算优化，但是基本思想很重要。
计算距离也有很多方法，实际工作时候，可能需要尝试不同的距离公式。

来源于CS229

Msunming

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
K-means

任务数据: mm个样本，x(i)x^{(i)} 是n维的向量，{x(1),...,x(m){{x^{(1)},...,x^{(m)}}}}目标聚类算法随机初始化 kk 个聚类中心 μ1,..μk\mu_1,..\mu_k，（对结果还是很有影响的，后面会采取一些措施弥补这种影响）。对于每个样本，do:do: c(i):=argminj||x(i)−μj||c^{(i)}:
复制链接

扫一扫