聚类路线图(算法选择)

一般实验选择sklearn包。需要从两个方面看。数据量和样本分布。建议看下面两个图和链接进行粗选。

    一般实验选择sklearn包。需要从两个方面看。数据量和样本分布。建议看下面两个图和链接进行粗选。

    链接:http://sklearn.apachecn.org/cn/0.19.0/modules/clustering.html#different-linkage-type-ward-complete-and-average-linkage

 

Method name(方法名称)

Parameters(参数)

Scalability(可扩展性)

Usecase(使用场景)

Geometry (metric used)(几何图形(公制使用))

K-Means(K-均值)

number of clusters(聚类形成的簇的个数)

非常大的 n_samples, 中等的 n_clusters 使用 MiniBatch code(MiniBatch 代码)

通用, 均匀的 cluster size(簇大小), flat geometry(平面几何), 不是太多的 clusters(簇)

Distances between points(点之间的距离)

Affinity propagation

damping(阻尼), sample preference(样本偏好)

Not scalable with n_samples(n_samples 不可扩展)

Many clusters, uneven cluster size, non-flat geometry(许多簇,不均匀的簇大小,非平面几何)

Graph distance (e.g. nearest-neighbor graph)(图形距离(例如,最近邻图))

Mean-shift

bandwidth(带宽)

Not scalable with n_samples (不可扩展的 n_samples)

Many clusters, uneven cluster size, non-flat geometry(许多簇,不均匀的簇大小,非平面几何)

Distances between points(点之间的距离)

Spectral clustering

number of clusters(簇的个数)

中等的 n_samples, 小的 n_clusters

Few clusters, even cluster size, non-flat geometry(几个簇,均匀的簇大小,非平面几何)

Graph distance (e.g. nearest-neighbor graph)(图形距离(例如最近邻图))

Ward hierarchical clustering

number of clusters(簇的个数)

大的 n_samples 和 n_clusters

Many clusters, possibly connectivity constraints(很多的簇,可能连接限制)

Distances between points(点之间的距离)

Agglomerative clustering

number of clusters(簇的个数), linkage type(链接类型), distance(距离)

大的 n_samples 和 n_clusters

Many clusters, possibly connectivity constraints, non Euclidean distances(很多簇,可能连接限制,非欧几里得距离)

Any pairwise distance(任意成对距离)

DBSCAN

neighborhood size(neighborhood 的大小)

非常大的 n_samples, 中等的 n_clusters

Non-flat geometry, uneven cluster sizes(非平面几何,不均匀的簇大小)

Distances between nearest points(最近点之间的距离)

Gaussian mixtures(高斯混合)

many(很多)

Not scalable(不可扩展)

Flat geometry, good for density estimation(平面几何,适用于密度估计)

Mahalanobis distances to centers(Mahalanobis 与中心的距离)

Birch

branching factor(分支因子), threshold(阈值), optional global clusterer(可选全局簇).

大的 n_clusters 和 n_samples

Large dataset, outlier removal, data reduction.(大数据集,异常值去除,数据简化)

Euclidean distance between points(点之间的欧式距离)

 

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TigerZ*

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值