算法进阶--聚类之k-Means与其评判标准,相似度计算

本文深入探讨了聚类算法中的K-Means,包括基本思想、mini-batch k-Means、k-Means++以及k-Medios。同时,介绍了聚类的评价标准如ARI、AMI和轮廓系数,并总结了相似度计算方法。
摘要由CSDN通过智能技术生成

聚类

  • 定义:聚类就是对大量未标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大类别间相似度较小

聚类的基本思想

1条件:给定一个有N个对象的数据集,构造数据的k个簇, k ≤ n k\leq n kn,且满足下列条件:
– 每一个簇至少包含一个对象
– 每一个对象属于且仅属于一个簇
– 将满足上述条件的k个簇称作一个合理划分
2.思想:对于给定的类别数目k,首先给出初始划分,通过迭代改变样本和簇的隶属关系,使得每一次改进之后的划分方案都较前一次好

K-Means 算法

  • 定义:也被称为k-平均或k-均值,是一种广泛使用的聚类算法,或者称为其他聚类算法的基础
  • 过程:假定输入样本为 S = x 1 , x 2 , . . . x m S=x_1,x_2,...x_m S=x1,x2,...xm,则算法步骤为:
    1.选择初始的k个类别中心 μ 1 , μ 2 . . . μ k \mu_1,\mu_2...\mu_k μ1,μ2...μk
    2.对于每个样本 x i x_i xi,将其标记为距离类别中心最近的类别,即:
    l a b e l i = a r g m i n ∣ ∣ x i − u i ∣ ∣ , ( 1 ≤ j ≤ k ) label_i=arg min||x_i-u_i||,(1\leq j \leq k) labeli=argminxiui,(1j
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值