数据挖掘/机器学习 之 聚类

本文深入探讨了数据挖掘和机器学习中的聚类算法,包括层次聚类的基本原理,如何选择和合并簇,以及评估聚类质量的各种方法。讨论了欧氏距离、向量夹角和不同簇表示的挑战。最后提到了K-means聚类作为另一种常用方法。
摘要由CSDN通过智能技术生成
聚类:对点集进行考察并按照某种距离测度将他们聚成多个簇的过程,目标是使得同一个簇内的点之间距离比较短,不同簇中点的距离较大
一般是从给定的数据中发现簇,尤其是大数据量及高维空间或非欧空间
点集是一种适合于聚类的数据集,每个点都是某空间下的对象,能够进行聚类的所有空间都有一个距离测度,即空间下任意两点的距离
聚类策略:
  1. 层次(hierarchical或者凝聚式agglomerative)算法。这类算法一开始将每个点看成一个簇,簇与簇之间按照接近度来组合,当进一步的组合导致产生非期望结果时,组合过程结束。如:达到预定的簇数目,根据簇的密度判断
  2. 点分配(point assignment),按照某个顺序依次考虑每个点,并将它分配到最合适的簇中
也可以按照其他方式:是否在欧氏空间下,或者算法对于任意距离测度都有效,需要注意到:欧氏空间下点集可以概括为质心(点的平均),非欧空间没有质心的概念
高维空间下的距离测度:
维数灾难的一个表现:高维空间下几乎所有的点对之间的距离都差不多相等,或者任意的两个向量间是近似正交的
    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值