一、概念
分类:通过训练集训练出来一个模型,用于判断新输入数据的类型,而在训练的过程中,一定需要有标签的数据,即训练集本身就带有标签。简单来说,用已知的数据来对未知的数据进行划分。这是一种有监督学习。
聚类:对于一组数据,你根本不知道数据之间的关系,不知道他们是否属于同一类,抑或属于不同类别,也不知道到底可以分为多少类。这个时候,我们就需要聚类算法来对数据进行一个关系分析,通过聚类,我们可以把未知类别的数据,分为一类或者多类,这个过程是不需要标签的,这是一种无监督学习。
二、区别
给出一张图简要道出两者区别,图片来源:https://www.zhihu.com/question/42044303/answer/470589507

解释一下第五条:步数问题
对于分类问题,首先需要使用带标签的训练集来训练一个分类器出来,然后再将要分类的数据输入到分类器进行类别划分,所以说是两步。
对于聚类问题,只需要直接对数据进行处理,寻找数据之间相同之处来对数据进行划分类别,相对于分类来说这里只有一步。

本文介绍了机器学习中分类和聚类的基本概念。分类是一种有监督学习,依赖于带标签的训练数据来预测新数据的类型;而聚类则是无监督学习,通过对数据的分析来发现其内在的关系,无需预先知道类别。文中还通过对比分类和聚类的不同步骤,以及列举了常用的分类和聚类算法,如KNN、逻辑回归、K-means等,帮助读者理解这两者之间的区别。
最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



