算法评估:聚类

本文介绍了聚类算法的评估方法,包括间接法和直接法,如外部指标和内部指标。直接法中,样本差异通过相似性计算来衡量,常见的距离度量有欧式距离和余弦距离。欧式距离在标准化数据后使用,而余弦距离不受指标单位影响。这些评估标准对于优化聚类算法和理解数据集的内在结构至关重要。
摘要由CSDN通过智能技术生成

文中图片来自华为云课堂视频截图https://education.huaweicloud.com/courses/course-v1:HuaweiX+CBUCNXE086+Self-paced/courseware/c2ea05f2357c443eacf554f37aa2e6a7/75a7a0b27849445db209b25109668451/

目录

如何评估聚类算法

相似性计算——如何评估样本之间的差异


如何评估聚类算法

间接法:对使用聚类算法结果的下一应用的指标进行评估

直接法:外部指标(聚类结果和某个参考模型比较,将计算机结果与行业专家划分结果比较),内部指标(类内差异尽可能小,类间差异尽可能大

直接法需要计算类内样本点、类外样本点间的样本差异。

那么样本差异,要如何衡量呢?

样本差异,常借助’相似性‘指标衡量。

相似性计算——如何评估样本之间的差异

簇内样本差异小,簇外样本样本差异大。

使用样本点间的距离衡量样本差异。

在这里,有两种常用距离:

  • 欧式距离:向量的模值
    • 会受指标单位刻度影响,需要先对数据标准化处理eg:min-max [0,1],
    • 欧氏距离越大,差异越大
  • 余弦距离:向量的夹角——兴趣推荐
    • 不受指标刻度的影响
    • 值越大,差异越小

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

picoasis

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值