【Machine Learning】13 聚类(Clustering)

13.1 Unsupervised Learning_ Introduction 

     

有监督学习和无监督学习的区别,训练集给定标签和未给定标签。

 

13.2 K-Means Algorithm

    

输入为要分的K类和训练集;

在算法中,随机取K个点作为聚类中心,第一步数据点离哪个聚类中心近就分为哪类,第二步将聚类中心移动至第一步中分类的平均值点。重复以上步骤,直到聚类中心不再移动。

以下给出2聚类的例子:

   

   

 

13.3 Optimization Objective

   

第1步优化目标:最小化点到对应聚类中心的距离之和,得到点的分类;

第2步优化目标:最小化得到的点分类到聚类中心的距离得到新的聚类中心;

重复以上步骤。

13.4 Random Initialization

我们来讨论K-means方法中的随机初始化方法。

   

对于一次初始化可能得到局部最优结果,我们进行多次随机初始化再比较得到lowest cost,但这只适用于数据量较小的情况。

13.5 Choosing the Number of Cluster

如何选择聚类数量K呢?或者说选择哪种K才是正确的?

当是左图这种情况时我们利用Elbow method选择K,但大多数情况是右图这种不明确的,此时我们基于经验人工选取K。

 

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值