聚类分析

聚类分析

前言

概述

聚类分析的本质其实就是将一大堆的事物归类,虽然理论上来说这样的分析方式还不够完善,但是却能在实际上解决很多问题。

思想

每个事物之间,一般都会有一些属性或者说变量,我们通过判断这些属性或者变量的相似性来进行归类,一般来说,属性越相近的,我们越是要把他们放在一起。

分类

  • 对样品的分类常称为Q型聚类分析
  • 对变量的分类常称为R型聚类分析

一般来说,我们主要进行的是Q型聚类。因为我们往往是想研究多个个体之间的联系而不是多个我们自己设计的变量之间的联系。

实战

聚类的目的

概括地将,聚类分析的目的就是把相似的研究对象归成类。

聚类的方式

抽象描述(准备工作)

我们要分析两者是否是相似的对象,最直观的方式就是判断两者的距离是否比较近。那么我们怎么将这些对象抽象成可以比较的版本呢?
那必然是抽象,一些数值型的属性兴许可以让我们做一个比较,把距离最近的判作是同一类。但是有些是名义类型数据,我们就不能通过距离的方式进行判别,除非名义数据有比较直观的相似之处。

最短距离法(nearest neighbor或single linkage method)

将两个类别中距离最短的元素之间的距离作为该两个类别之间的距离
在这里插入图片描述

最长距离法(farthest neighbor或complete linkage method)

将两个类别中距离最长的元素之间的距离作为该两个类别之间的距离
在这里插入图片描述

类平均法(group average method)

将两个类里每个平均数都进行测量,并做一次平均,得到的平均数就是两者之间的距离。
在这里插入图片描述

重心法(Centroid method)

将所有的数据做一次平均,将所有X、Y轴的数据进行一次计算,求得两个类别的重心,再根据求得的重心之间的距离判断两个类别是否想等

离差平方和法(Sum of Squares method)

比如说有两个类别A、B,我们同时求出A的直径DA、B的直径DB、A与B合并后的直径DAB
那么A与B的距离就是DAB-DA-DB

聚类的形式

系统聚类法

一开始将每一个元素都分为一个类别,然后不断地合并距离最短的两个组。
系统聚类法

优点:能够根据需求分出任意一种需要的类别数,而且能直观地判断出每个类之间的紧密联系程度
缺点:因为有N个元素就要合并N-1次类别,每一次合并都要对每一个类别进行一次距离比较,计算工程量大。

快速聚类法

先确定有N个类别,然后随机地取出N个点作为这N个类别的中心。
计算出每个元素到这N个中心之间的距离,与哪个中心距离近则归为哪一类,在此基础上,求出每个类别的重心,再重新根据新的重心进行一次归类,直到重心距离偏移量小于某一个值时停止。

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值