经典聚类算法总结

时间复杂度只跟循环次数有关,与循环里有多少条语句无关。
DBSCAN:

density-based clustering:聚类参数:eps,min-samples(一个点在eps范围内有最小min-samples个点则定义为core point)

有三类点:core points,none-core point(在一个core point 的eps范围内,但是自己不是),outlier(既不是core point,也不在任何一个core point的eps内)

噪声点会被滤除,不产生完全聚类。

目的是寻找被低密度区域分离出的高密度区域。

时间复杂度:O(N*找到eps领域内点的时间),最坏O( N**2),最好O(N*logN)


k-means:

适用于凸状的,不适用于细长的或是不规则的形状的。

对于高维数据,欧式距离会膨胀,可以先用PCA降维。PCA:主成分分析,从原来的几个维度中提取综合出新的正交的代表原来变量的少数维度。

基于初始点的选择,算法很可能陷入局部最优,可以进行多次聚类减少这一误差,在python中,使用设置init='kmeans++'参数可以将初始点设置的尽量远一些。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值