无监督学习——聚类

本文介绍了无监督学习中的聚类概念,包括性能度量、距离计算方法以及常见的聚类算法,如K-Means、高斯混合聚类、密度聚类和层次聚类。聚类的基本目标是找到数据的内在结构,通过性能度量和距离计算来评估和优化聚类效果。K-Means算法因其简单和效率被广泛使用,但也存在对初始中心点敏感、不适用于非凸形状簇等问题。
摘要由CSDN通过智能技术生成
1、基本概念理解

无监督学习——通过无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。

聚类——将数据集中的样本划分为若干个不相干的子集,每个子集称为一个“簇”,即类别。需要说明的是,聚类之前并不知道数据是属于哪一类的,我们就是要通过聚类来找出有哪些类别并把这些数据归类。

2、聚类的两个基本问题
2.1 性能度量

性能度量亦称有效性指标,一方面,我们需要通过某种性能度量来评价聚类结果的好坏;另一方面,若明确了最终将要使用的性能度量,则可直接将其作为聚类过程的优化目标,从而更好地得到符合要求的聚类结果。

那么,什么是符合要求的好的聚类结果呢?即,簇内相似度高且簇间相似度低。

因此性能度量 也大致分为两类,一类是“外部指标”,即将聚类结果与某个“参考模型”进行比较;另一类是“内部指标”,即直接考察聚类结果而不利用任何参考模型。

  • 外部指标
    • JC系数
    • FM系数(FMI)
    • Rand系数(RI)
      上述度量结果都在[0,1]区间,值越大越好
  • 内部指标
    • DB指数(DBI:值越小越好
    • Dunn指数(DI):值越大越好
2.2 距离计算
  • 闵科夫斯基距离
    p=1时,即欧式距离
    p=2时,即曼哈顿距离 <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值