聚类（clustering）与分类（Classification）的区别

最新推荐文章于 2024-09-24 19:37:38 发布

Evan_Gu

最新推荐文章于 2024-09-24 19:37:38 发布

阅读量5.2w

点赞数 32

分类专栏：数学基础文章标签： clustering classification 聚类与分类

本文链接：https://blog.csdn.net/gdp12315_gu/article/details/49777797

版权

数学基础专栏收录该内容

14 篇文章 9 订阅

订阅专栏

当把聚类（Clustering）和分类（Classification）放到一起时，很容易弄混淆两者的概念，下分别对两个概念进行解释。

1 聚类（Clustering）：

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。

聚类分析的一般做法是，先确定聚类统计量，然后利用统计量对样品或者变量进行聚类。对N个样品进行聚类的方法称为Q型聚类，常用的统计量称为“距离”；对于m个变量进行聚类的方法称为R型聚类，常用的统计量称为“相似系数”。

Method name	Parameters	Scalability	Usecase	Geometry (metric used)
K-Means	number of clusters	Very large `n_samples`, medium `n_clusters`with MiniBatch code	General-purpose, even cluster size, flat geometry, not too many clusters	Distances between points
Affinity propagation	damping, sample preference	Not scalable with n_samples	Many clusters, uneven cluster size, non-flat geometry	Graph distance (e.g. nearest-neighbor graph)
Mean-shift	bandwidth	Not scalable with`n_samples`	Many clusters, uneven cluster size, non-flat geometry	Distances between points
Spectral clustering	number of clusters	Medium `n_samples`, small `n_clusters`	Few clusters, even cluster size, non-flat geometry	Graph distance (e.g. nearest-neighbor graph)
Ward hierarchical clustering	number of clusters	Large `n_samples` and`n_clusters`	Many clusters, possibly connectivity constraints	Distances between points
Agglomerative clustering	number of clusters, linkage type, distance	Large `n_samples` and`n_clusters`	Many clusters, possibly connectivity constraints, non Euclidean distances	Any pairwise distance
DBSCAN	neighborhood size	Very large `n_samples`, medium `n_clusters`	Non-flat geometry, uneven cluster sizes	Distances between nearest points
Gaussian mixtures	many	Not scalable	Flat geometry, good for density estimation	Mahalanobis distances to centers
Birch	branching factor, threshold, optional global clusterer.	Large `n_clusters` and`n_samples`	Large dataset, outlier removal, data reduction.	Euclidean distance between points

2 分类（Classification）：

在已有分类标准下，对新数据进行划分，分类。

        常用分类算法：

       朴素贝叶斯(Naive Bayes, NB)
       超级简单，就像做一些数数的工作。如果条件独立假设成立的话，NB将比鉴别模型（如Logistic回归）收敛的更快，所以你只需要少量的训练数据。即使条件独立假设不成立，NB在实际中仍然表现出惊人的好。如果你想做类似半监督学习，或者是既要模型简单又要性能好，NB值得尝试。

        Logistic回归(Logistic Regression, LR)
LR有很多方法来对模型正则化。比起NB的条件独立性假设，LR不需要考虑样本是否是相关的。与决策树与支持向量机（SVM）不同，NB有很好的概率解释，且很容易利用新的训练数据来更新模型（使用在线梯度下降法）。如果你想要一些概率信息（如，为了更容易的调整分类阈值，得到分类的不确定性，得到置信区间），或者希望将来有更多数据时能方便的更新改进模型，LR是值得使用的。

        决策树（Decision Tree, DT）
DT容易理解与解释（对某些人而言——不确定我是否也在他们其中）。DT是非参数的，所以你不需要担心野点（或离群点）和数据是否线性可分的问题（例如，DT可以轻松的处理这种情况：属于A类的样本的特征x取值往往非常小或者非常大，而属于B类的样本的特征x取值在中间范围）。DT的主要缺点是容易过拟合，这也正是随机森林（Random Forest, RF）（或者Boosted树）等集成学习算法被提出来的原因。此外，RF在很多分类问题中经常表现得最好（我个人相信一般比SVM稍好），且速度快可扩展，也不像SVM那样需要调整大量的参数，所以最近RF是一个非常流行的算法。

        支持向量机（Support Vector Machine, SVM）
很高的分类正确率，对过拟合有很好的理论保证，选取合适的核函数，面对特征线性不可分的问题也可以表现得很好。SVM在维数通常很高的文本分类中非常的流行。由于较大的内存需求和繁琐的调参，我认为RF已经开始威胁其地位了。

回到LR与DT的问题（我更倾向是LR与RF的问题），做个简单的总结：两种方法都很快且可扩展。在正确率方面，RF比LR更优。但是LR可以在线更新且提供有用的概率信息。鉴于你在Square(不确定推断科学家是什么，应该不是有趣的化身)，可能从事欺诈检测：如果你想快速的调整阈值来改变假阳性率与假阴性率，分类结果中包含概率信息将很有帮助。无论你选择什么算法，如果你的各类样本数量是不均衡的（在欺诈检测中经常发生），你需要重新采样各类数据或者调整你的误差度量方法来使各类更均衡。