学堂在线_大数据与机器学习_第5章聚类

一个簇可以只包含一个样本,也可以包含多个样本

• 聚类的结果可用包含m个元素的簇标记向量 表示
在这里插入图片描述
如何度量

在这里插入图片描述
外部指标
a 两个都在同一类
b 外同一类,内不同一类
c 内同一类,外部同一类
d 内外都部署同一类
在这里插入图片描述
指标都是越大越好
在这里插入图片描述
内部指标
每簇内部的平均距离
每簇内部的两两样例的最大距离
簇与簇间最近的样本间的距离
簇与簇间中心点之间的距离
在这里插入图片描述
DB指标:任意两个数的簇内平均距离之和两个簇中心距离的比值,然后找寻最大值,这个值越小越好
Dunn指标:每个簇与其他簇的样本间距离最小值,再除以簇内样例间距离的最大值,越大越好
在这里插入图片描述
距离度量的性质
在这里插入图片描述
距离计算
在这里插入图片描述
无序属性的距离度量方法
在这里插入图片描述
加权距离
在这里插入图片描述
簇内均值向量
在这里插入图片描述
均值向量
在这里插入图片描述

在这里插入图片描述
样例有类别标签
在这里插入图片描述
根据方向来更新向量,步骤6:相同,原型向量和样本靠近,不相同原型向量和样本远离
在这里插入图片描述
密度聚类 DBSCAN是基于密度的聚类
在这里插入图片描述
定义
在这里插入图片描述
X2由X1密度直达
X3由X1密度可达
X3与X4密度相连
在这里插入图片描述
随机构建种子
在这里插入图片描述
实心点为核心对象,空心点为非核心对象,星形为噪音对象
在这里插入图片描述
层次聚类,自顶向下或者自底向上
在这里插入图片描述
距离计算
在这里插入图片描述
距离的划分,先假设簇的划分就是样本数,然后逐步合并
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值