分类和聚类的区别

前言
        机器学习中有两类的大问题,一个是分类,一个是聚类。在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别。

一、分类
分类有如下几种说法,但表达的意思是相同的。

分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。
分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。
分类:通过学习来得到样本属性与类标号之间的关系。
用自己的话来说,就是我们根据已知的一些样本(包括属性与类标号)来得到分类模型(即得到样本属性与类标号之间的函数),然后通过此目标函数来对只包含属性的样本数据进行分类。
分类算法的局限

        分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。

二、聚类
聚类的相关的一些概念如下

聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,这在机器学习中被称作 unsupervised learning (无监督学习)
通常,人们根据样本间的某种距离或者相似性来定义聚类,即把相似的(或距离近的)样本聚为同一类,而把不相似的(或距离远的)样本归在其他类。
聚类的目标:组内的对象相互之间时相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类就越好。
三、分类与聚类的比较
分类:有训练数据,且训练数据包含输入和输出(有监督学习),已知分类的类别(即训练数据的输出)。学习出一个模型,用该模型对未分好类(预测数据)的数据进行预测分类(已知的类别中)。
聚类:训练数据只有输入(无监督学习)。训练过程即预测过程(聚类过程),且不知道类别,甚至不知道有多少个类别,类别的数量需要指定(K-means),也可以直接通过算法学习出来(DBSCAN)。只能通过特征的相似性对样本分类。该过程即聚类。
聚类分析是研究如何在没有训练的条件下把样本划分为若干类。
在分类中,对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。
聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的类或者说聚类,并且使得在这种分类情况下,以某种度量(例如:距离)为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。
与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记。
————————————————————————————————————————————————

————————————————————————————————————————————————
 

  • 7
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
分类算法和聚类算法是机器学习中两个不同的任务,它们的目标和方法有所不同。 1. 目标: - 分类算法的目标是将数据样本划分到预定义的离散类别中,即给定一组已知的类别标签,通过学习训练数据的特征和类别关系,预测新样本所属的类别。 - 聚类算法的目标是将数据样本划分为相似的组(簇),并且组内的样本相似度高,组间的样本相似度低,即将相似的样本聚集到一起。 2. 数据标签: - 分类算法需要有事先定义好的类别标签作为监督学习的训练目标。通过学习样本与标签之间的关系,建立分类模型进行预测。 - 聚类算法不需要事先定义好的类别标签,它是无监督学习任务,通过数据之间的相似性度量来聚集样本。 3. 方法: - 分类算法使用各种算法和模型(如逻辑回归、决策树、支持向量机等)来建立分类模型,使其能够根据输入特征进行准确的分类预测。 - 聚类算法使用各种算法和模型(如K-means、层次聚类、DBSCAN等)来计算样本之间的相似性或距离,然后将相似的样本划分到同一个簇中。 4. 基本假设: - 分类算法通常假设数据样本属于预定义的类别,并且不同类别之间的边界明确。 - 聚类算法通常假设数据样本存在一定的内在结构,即相似的样本更可能属于同一个簇。 总之,分类算法是有监督学习任务,根据已知的类别标签预测新样本的类别;而聚类算法是无监督学习任务,将相似的样本聚集到一起形成簇。分类算法需要事先定义好的类别标签,而聚类算法不需要。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值