《聚类个人理解》算法篇02——系统聚类page04

迟到的周更,下次一定!
下周补充一个介绍篇的评价指标(分上下,先说用的多的评价指标,然后我再查查不常见的)

算法篇——系统聚类(或层次聚类)

始发于:2020-6-9  最新更改:2020-6-9

一、扯
讲系统聚类,优先看一下它的应用前景,系统聚类用的多吗?用的方面广吗?答案都是否定的。那我们学它干什么?我相信学任何一个东西,学会了应该没有坏处,一方面呢,技多不压身,另一方面我们有时候学一个人东西,过了很长时间,在另一个方面研究东西,或者做东西的时候,一些想法,骚操作,可能就来自你之前学过的被称为“没用的”知识。

问:系统聚类为啥用的不多?
答:系统聚类适合小样本数据集,对于大样本系统聚类的运算复杂度成倍叠加,这导致这个方法用的时候不多。现在大多数都是在分析中等量样本集和大数据样本集。

二、系统聚类
系统聚类的原理,比如在一个平面,上面有5个点,首先把每一个点看做一类,我们就有5个类簇,每个类簇有1个点。如下图:
在这里插入图片描述

第一次:
找到两个距离最近的点,如图点3与点5,把这两个分到一类。那么现在呢 就有4个类簇。如下图:
在这里插入图片描述
第二次:
从这里开始,根据新合并的类簇整体到其他点的距离怎么求,诞生了各种各样的系统聚类方法
定义:
①四个类name:1,2,4,3+5
②dist(name1,name2):类name1与类name2的距离
最短距离法:例:3+5与4的距离=min{dist(4,3),dist(4,5)}
最长距离法:例:3+5与4的距离=max{dist(4,3),dist(4,5)}
类平均法:例:3+5与4的距离=[dist(4,3)+dist(4,5)]/n(n为分子相加的距离个数)
重心法:在每一个类簇找一个中心来代替整体,重心法大多情况是取均值,比如一个类簇两个点((3,5),(7,1))他们的重心就是((3+7)/2,(5+1)/2)
等等,还有很多方法可以拓展。

三、研究现状

系统聚类适合小样本数据集,所以现在对它做的研究大多为小样本。比如药方组成成分,鉴别某植物的产地,那么这些小样本究竟有多小?大概在多则50左右,少则7,8,个。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值