聚类算法小结

本文介绍了聚类算法的基本概念,包括余弦相似度、欧式距离等评估标准,并详细讲解了K-Means、BIRCH和DBSCAN这三种聚类算法的工作原理和优缺点。K-Means通过迭代将样本分配到最近的簇,BIRCH利用聚类特征树进行层次聚类,而DBSCAN则是一种基于密度的聚类算法,能识别任意形状的簇。
摘要由CSDN通过智能技术生成

介绍

聚类算法在于对每一条样本生成固定长度的特征向量,通过数学运算将空间中满足聚类要求的相似样本聚为一类,即我们说的簇。由于聚类算法通常为无监督学习,不需要样本标签,因而成本较低,广泛应用于相似性数据挖掘工作中。应用到推荐领域,可以为用户和产品分组。在介绍常见的聚类算法前,我们先呈现各类相似度的判断标准:

  • 余弦相似度 (Cosine Similarity):空间中向量夹角的余弦值,用于衡量向量的方向是否一致;
    C o s i n e _ S i m i l a r i t y ( x , y ) = x ⋅ y ∣ ∣ x ∣ ∣ ⋅ ∣ ∣ y ∣ ∣ Cosine\_Similarity(x,y)=\frac{x\cdot y}{||x||\cdot ||y||} Cosine_Similarity(x,y)=xyxy
  • 欧式距离 (Euclidean Distance):两点之间的最短距离,是对于向量长度和方向的综合评价标准;
    E u c l i d e a n ( x , y ) = ∣ ∣ x − y ∣ ∣ = ( ∑ i ∣ x i − y i ∣ 2 ) 1 2 Euclidean(x,y)=||x-y||=\big(\sum_i|x_i-y_i|^2\big)^{\frac{1}{2}} Euclidean(x,y)=xy=(ixiyi2)21
  • 曼哈顿距离 (Manhattan Distance):两点之间的棋盘距离,在特定场景下效用显著;
    M a n h a t t a n ( x , y ) = ∑ i ∣ x i − y i ∣ Manhattan(x,y)=\sum_i|x_i-y_i| Manhattan(x,y)=ixiyi
  • 闵氏距离 (Minkowski Distance):欧式距离和曼哈顿距离的泛化版本;
    M i n k o w s k i ( x , y ) = ( ∑ i ∣ x i − y i ∣ p ) 1 p Minkowski(x,y)=\big(\sum_i|x_i-y_i|^p\big)^{\frac{1}{p}} Minkow
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值