【机器学习】——聚类相关理论及性能度量

1. 聚类的概念

  聚类是一种无监督学习,即训练数据中是不含标签等标记信息的。聚类就是根据给定样本内部的特征,将其划分到若干个类别,每个类别就是一个簇,聚类的结果就是使得同一簇内的样本尽可能相似,即相似度较大,而不同簇之间相似度尽可能小。而此相似度的衡量可通过样本间的距离衡量。简单来说,聚类就是我们平时所说的“物以类聚”。

2. 硬聚类和软聚类

通过聚类得到的结果是若干个簇,其本质是样本的子集。
硬聚类:聚类得到的结果中,一个样本只属于一个簇,也就是说任意两个簇的交集为空集。
软聚类:一个样本可以被划分到多个簇,即:两个簇的交集不为空集。

3. 聚类应用场景

  • 客户群体划分
      在一些商业应用中,商家或平台往往会对不同客户群体采取不同的营销策略,但对客户群体的类型定义可能不太容易,这时可先对用户数据进行聚类,根据聚类结果将客户细分,判断其类别,制定个性化的营销策略。
  • 社交网络分析
      识别在同一个圈子的朋友,判断哪些人可能互相认识。在信息化时代,社交网络是我们获取信息、分享信息、沟通交流的主要途径,六度空间理论是否是一个伪理论?我们可以利用聚类的方式将一群人划分到不同簇,同一个簇内的人就可能是同一圈子的志同道合的朋友。
  • 文档处理
      对相似内容的文档进行划分。在我们在进行某方面文献、文档检索时,会出现很多相似文档,这就是相似文档推荐,其内部应用的就是衡量文档的相似度,将相似文档划分为一个簇。
  • 异常值检测
      利用聚类识别可能的离群点,所谓离群点就是相对于整体而言的少数孤立点,这些点的行为特征与整体数据有很大不一致性,在多数数据处理中会将其作为异常值、噪声点清洗掉,但在某些特定业务中,如:诈骗检测、工业生产质量检测等,异常点往往是关注的重点。

4. 聚类算法的划分

  原型聚类:K均值聚类算法、高斯混合聚类
  层次聚类:包括聚合聚类(AGNES算法)和分裂聚类
  模糊聚类:EM算法
  密度聚类:DBSCAN算法

4. 聚类性能度量

  我们期望得到的聚类结果是具有“簇内高相似度、簇间低相似度”。为了评估聚类结果的好坏,需要明确聚类性能度量指标。性能度量主要有外部指标和内部指标。

4.1外部指标

外部指标:将聚类结果与某个参考模型比较。常用的外部指标有:JC、FMI、RI。

给定数据集:
            在这里插入图片描述

聚类得到的簇划分为
            在这里插入图片描述
,用λ表示每个簇的标记向量,参考模型的簇划分为

            在这里插入图片描述
,用λ*表示每个簇的标记向量,定义:
          在这里插入图片描述
SS代表在聚类结果中隶属于相同簇且在参考模型中也隶属于相同簇的样本对的集合。a为集合SS中样本数量。
          

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值