比较 K-meansS和 DBSCAN

  1. DBSCAN 和K 均值都是将侮个对象指派到单个簇的划分聚类算法,但是 K 均值一般聚类所有对象,而 DBSCAN 丢弃被它识别为噪声的对象
  2. K 均值使用簇的基于原型的概念,而 DBSCAN 使用基于密度的概念。
  3. DBSCAN 可以处理不同大小和不同形状的簇,并且不太受噪声和离群点的影响。 K 均值很难处理非球形的簇和不同大小的簇。当簇具有很不相同的密度时,两种算法的性能都很差
  4. K 均值只能用于具有明确定义的质心(如均值或中位数)的数据。 DBSCAN 要求密度定义(基于传统的欧几里得密度概念)对于数据是有意义的。
  5. K 均值可以用于稀疏的高维数据,如文档数据。 DBSCAN 通常在这类数据匕性能很差,因为对于高维数据,传统的欧几里得密度定义不能很好处理它们。
  6. K 均值和 DBSCAN 的最初版本都是针对欧几里得数据设计的,但是它们都被扩展,以便处理其他类型的数据。 .
  7. DBSCAN 不对数据的分布做任何假定。基本 K 均值算法等价于一种统计聚类方法(混合模型),假定所有的簇都来自球形高斯分布,具有不同的均值,但具有相同的协方差矩阵。
  8. DBSCAN 和 K 均值都寻找使用所有属性的簇,即它们都不寻找可能只涉及某个属性子集的簇。 .
  9. K 均值可以发现不是明显分离的簇,即便簇有重替也可以发现,但是 DB SCAN 会合并有重叠的簇。
  10. K 均值算法的时间复杂度是O (m ) ,而 DBscAN 的时间复杂度是O( m2 ) ,除非用于诸如低维欧几里得数据这样的特殊情况。 .
  11. DBSCAN 多次运行产生相同的结果,而 K 均值通常使用随机初始化质心,不会产生相同的结果。
  12. DBSCAN 自动地确定簇个数;对于 K 均值,簇个数需要作为参数指定。然而, DBSCAN 必须指定另外两个参数: EP : (邻域半径)和 MinPt , (最少点数)。 .
  13. K 均值聚类可以看作优化问题,即最小化每个点到最近的质心的误差的平方和,并且可以看作一种统计聚类(混合模型)的特例。 DBSCAN 不基于任何形式化模型。

参考文献:

数据挖掘导论-范明,范宏建

 

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值