聚类(Clustering)理论简介

现实中,人们获得的数据大部分都是未标记(unlabeled data),分类和回归算法不能够处理这些数据,而人工进行标记耗时耗力,也是不可行的。因此,人们处理这些数据的大致步骤是:先采用聚类,将数据划分成若干个簇,再将每个簇(cluster)根据数据的含义定义为一个特定的类,这样相当于给数据进行非人工标记,获得了带标记的数据,这样一来,就可以使用分类和回归算法来训练模型,用于判别新数据(raw data)的类型了。

聚类(clustering)是将数据集D划分成若干互不相交的子集,即’簇’(cluster).通常这个数据集是由无标记(也可以是少部分存在标记)的样本数据构成。它的核心思想是“物以类聚”。怎么“聚”?就是寻找一种合适的距离度量,在结合性能度量来评价,找到更好的且符合要求的聚类结果。
对”簇”的描述中会涉及到一个单词centroid,翻译过来叫做“质心”。每个簇通过其质心(也就是簇中所用点的中心)来描述。离质心越近的数据点,其被分到该簇的可信度越高。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值