聚类分析学习

聚类是非监督学习的一种形式,它将一个观测集(即数据点)按相似度的大小进行分类,将最相似的数据点划分在一类。

1、聚类分析含义:

       聚类分析是将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。其目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。简单说来,聚类分析就是把相似的研究对象归为一类,以方便研究。

2、常用方法:

       方法有以下三种模糊聚类法、系统聚类法、K-均值聚类法。

       模糊聚类:主要是将模糊数学的思想观点用到聚类分析中产生的,此种聚类方法主要适用于定性变量的分类;

     系统聚类法:是指将物理或者抽象对象的集合分成相似的对象类的过程步骤:首先,将n个样品看成是n类(一类包含一个样品),然后将样本距离最接近的两类合并一个新类,我们得到n-1类,再从中找到最接近的两类加以合并变成n-2类,如此下去,可以得到我们想要的类别数。

       K-均值聚类法,此类方法主要适用于大数据组的聚类中

3、相似度一般用样本间的距离来衡量。

        常见的是欧式距离:

     两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离:

 基于距离的计算方法


       此外,还有一种距离衡量: Ward(即离差平方和法)。它的思想是,同类离差平方和较小,类间偏差平方和较大。Ward方法聚类时总是使得聚类导致的类内离差平方和增量最小。公式:

 递推公式

4、聚类准则函数的选择

      一般有这几种:最短距离法、最长距离法、中间距离法、重心法、类平均距离法

     具体参考这篇文章:http://www.cnblogs.com/yangmier/archive/2012/04/09/2438447.html


  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值