机器学习算法-聚类(一、性能度量和距离计算)

最近正式进入到机器学习的理论学习中啦,准备写一些笔记来加深我对机器学习算法的理解~

所谓聚类在我的理解中是:
将数据集中的样本划分为若干个不相交的子集,每个子集即为一个簇:
这里写图片描述

它可用于寻找数据内在的分布结构,也可作为其它学习任务的前驱过程,来提炼数据

以下是聚类算法涉及的两个基本问题:

性能度量和距离计算:

聚类是将样本划分为若干互不相交的子集(样本簇),当然我们希望是簇内相似度高,簇间相似度底

此时需要性能度量: 一般分两类:

一、使用外部指标:

        将聚类结果与某个参考模型作比较     

给定参考簇划分C*,对数据集D,通过聚类得到的簇划分为C
λ 与 λ∗分别表示C和C*对应的簇标记向量。

这里写图片描述
通过C和C*的比较,得出相应的参数,再使用公式进行性能度量

二、使用内部指标:

        直接对聚类结果进行分析,不进行参考

这里写图片描述

主要是利用样本点之间的距离来进行度量
DB是用来衡量样本簇各自内部点的聚合度与样本簇之间的聚合度的大小,显然,内部是越小越好,样本簇之间是越大越好
Dunn则是比较样本簇之间最小距离和样本簇之间最大距离,主要是样本簇之间进行比较显然,样本簇之间最小距离越大,最大距离越小说明样本簇内部聚合度越高,样本簇之间的距离越远

距离计算,应该是聚类的核心之一,距离的计算基本上是样本点与样本点之间距离的计算,通过利用得到的距离,可以判断该点的大致类别

这里写图片描述

这用来计算样本点中的有序属性比较方便;

但现实生活中还有(交通工具:火车,汽车,飞机)这样的无序属性,此时采用VDM距离:
令Mu,a表示在属性u上取值为a的样本数,Mu,a,i表示在第i个样本簇中在属性u上取值为a的样本数,k为样本簇数,则属性u上两个离散值a与b之间的VDM距离为:

这里写图片描述

无序属性就是通过计算样本簇中在属性u上样本点的多少来得到该样本簇在该属性上的“距离”

在不少现实任务中,我们需要基于数据样本来确定合适的距离计算式,如果有兴趣可以学习 “距离度量学”


最后盖个章~

Shiloh的读书笔记~

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

智慧地球(AI·Earth)社区

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值