分类和聚类的区别

转自:https://blog.csdn.net/sjpz0124/article/details/45980577

1、分类和聚类的区别:

        Classification (分类),对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习),

        Clustering (聚类),简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在Machine Learning中被称作unsupervised learning (无监督学习).

2、常见的分类与聚类算法

        所谓分类,简单来说,就是根据文本的特征或属性,划分到已有的类别中。如在自然语言处理NLP中,我们经常提到的文本分类便就是一个分类问题,一般的模式分类方法都可用于文本分类研究。常用的分类算法包括:决策树分类法,朴素贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器,神经网络法,k-最近邻法(k-nearestneighbor,kNN),模糊分类法等等。

        分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。而K均值(K-mensclustering)聚类则是最典型的聚类算法(当然,除此之外,还有很多诸如属于划分法K中心点(K-MEDOIDS)算法、CLARANS算法;属于层次法的BIRCH算法、CURE算法、CHAMELEON算法等;基于密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基于网格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;基于模型的方法)。


Weka是一款流行的机器学习软件,其中包含了分类聚类分析的功能。分类聚类是机器学习中常用的两种方法,它们有着一些区别。 首先,分类聚类的目标不同。分类是一种监督学习的方法,其目标是根据已有的标签信息进行预测和分类。它通过学习已有数据集中的模式和规律,来将未知数据归到事先定义好的类别中。相比之下,聚类是一种无监督学习的方法,其目标是将数据集中的样本划分为相似的组别,寻找数据的内在结构和模式,而无需事先定义好的类别。 其次,分类聚类所使用的算法和技术也不同。在Weka中,分类常用的算法包括决策树、朴素贝叶斯、支持向量机等。这些算法通过训练数据集来生成一个分类模型,然后利用该模型对未知数据进行预测和分类。而聚类常用的算法包括K均值聚类、层次聚类、DBSCAN等。这些算法通过计算样本之间的相似度或距离,将数据集中的样本划分为不同的组别。 此外,分类聚类对数据集的处理方式也不同。分类需要事先标注好的已知类别的训练数据集来进行学习和预测。而聚类不需要任何关于类别的先验知识,只需根据数据样本本身的相似性进行划分。 综上所述,分类聚类是两种不同的机器学习方法。分类用于预测和分类具有已知类别的数据,而聚类是用于将数据集中的样本划分为不同组别,寻找数据集中的内在结构和模式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值