无监督K-Means算法(理论部分)

代码部分:https://jkchen.blog.csdn.net/article/details/103338207

无监督学习

给出只有特征值的数据,自行分成多个相似的簇。

以下是两个特征值的可视化情况:
在这里插入图片描述
你需要做到的结果大致如下:
在这里插入图片描述

K-Means算法

流程:

  • 先随机K个点,作为K个簇的中心;
  • 然后对于每个样本点,寻找最近的中心,并加入那个簇;
  • 每个簇的中心变为簇中的所有样本点的均值点;
  • 重复这个过程直到不发生变化。

定义:

  • x ( i ) x^{(i)} x(i)为第i个样本点;
  • μ k \mu_k μk为第k个簇的中心点;
  • c ( i ) c^{(i)} c(i)为第i个样本点的所属簇;
  • J J J(畸变函数)为 J ( μ , c ) = ∑ ∣ ∣ x ( i ) − μ c ( i ) ∣ ∣ 2 J(\mu,c)=\sum||x^{(i)}-\mu_{c^{(i)}}||^2 J(μ,c)=x(i)μc(i)2,即每个样本点到所属簇中心点的距离的平分和。

想法:

  • 我们做第二步(寻找每个样本点的簇)是为了通过改变 c ( i ) c^{(i)} c(i)来减小 J J J
  • 做第三步(寻找每个簇的中心)是为了通过改变 μ k \mu_{k} μk来减小 J J J
  • 两种分类方法的优劣可以通过 J J J的大小进行比较。

优化(重点):

  • 随机空间上的点过于随机,我们可以用随机样本点来代替;
  • 初始值的选择很大程度上影响最后的结果,可能导致局部最优解,所以我们可以多做几次;
  • 多做几次只有当K较小(小于10)时作用较大。

K的选择

很大程度上由主观决定。

虽然很多时候不能做到可视化,但是可以根据实际需求决定。例如为了做衣服,按照用户的身高体重,将用户分为三类,对应衣服的 S , M , L S,M,L S,M,L

如果不能确定,可以使用“肘部法则”(不能指望。。。):

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值