4种聚类算法

本文介绍了四种聚类算法:K-means、DBSCAN、基于网络的STING算法和基于模型的SOM。K-means简单高效但对初始点和K值敏感;DBSCAN能发现任意形状聚类,但结果受参数影响;STING速度快但精度可能下降;SOM保持输入向量的拓扑特征,但效率较低。
摘要由CSDN通过智能技术生成

算法面试问题集锦

聚类算法的名称、基本思想和各自优缺点

(1)K-means(K均值),变体包括k-medoids、k-modes、k-medians、kernel k-means等算法。

 基本思想:k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。

k-means算法的处理过程如下:首先,随机地 选择k个对象,每个对象初始地代表了一个簇的平均值或中心;对剩余的每个对象,根据其与各簇中心的距离,将它赋给最近的簇;然后重新计算每个簇的平均值。 这个过程不断重复,直到准则函数收敛。

通常,采用平方误差准则,其定义如下:  E=∑i=1~k∑p∈Ci |p-mi|²  这里E是数据库中所有对象的平方误差的总和,p是空间中的点,mi是簇Ci的平均值。该目标函数使生成的簇尽可能紧凑独立,使用的距离度量是欧几里得距离,当然也可以用其他距离度量。

优缺点:

优点:对于大型数据集也是简单高效、时间复杂度、空间复杂度低。 
缺点:最重要是数据集大时结果容易局部最优;需要预先设定K值,对最先的K个点选取很敏感;对噪声和离群值非常敏感;只用于numerical类型数据;不能解决非凸(non-convex)数据。

(2)DBSCAN(基于密度的噪声应用空间聚类)

基本思想:k-means解决不了不规则形状的聚类。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值