聚类与分类的区别

分类:按照某种标准给对象贴标签,再根据标签区分归类

聚类:事先没有标签而通过某种成因找出事物之间存在聚集性原因的过程

区别:分类事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于指导学习范畴。分类法适合类别或分类体系确定的场合,比如按照国图分类法分类图书。

           聚类则没有事先预定的类,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类的过程中自动生成。聚类法适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎和后聚类(元搜索)等。

          分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,...,vn;c),其中VI表示字段值,C表示类别。分类器构造方法具有统计方法,机器学习方法,神经网络方法等

           聚类根据‘物以类聚’,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。

           与分类规则不同,进行聚类前并不知道要划分几个组和什么样的组,也不知道哪些空间区分规则来定义组。其目的是旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。聚类涉及范围:数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域。常见的聚类方法:K均值聚类方法,K中心点聚类、CLARANS、BIRCH、CLIQUE、DBSCAN等

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值