【MachineLearning】数据挖掘中的分类和聚类的区别

参考:

http://www.cnblogs.com/batys/p/3274138.html



分类聚类
是一种有指导的学习,
即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识
是根据样本数据形成的类知识并对源数据进行分类
进而也可以预测未来数据的归类

是一种无指导学习
是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。
进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空 间区分规则来定义组。
目的是使得属于同类别的对象之间的差别尽可能的小,而不同类别上的对象的差别尽可能的大。

应用:
例如医疗诊断、信用卡的信用分级、图像模式识别
广泛应用于商业、生物、地理、网络服务等多种领域。
方法:
分类规则、决策树、数学公式和神经网络

聚类技术主要是以统计方法、
机器学习、神经网络等方法为基础。
比较有代表性的聚类技术是基于几何距离的聚类方法,如欧氏距离、曼哈坦距离、明考斯基距离等。
常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等

分类的目的
是学会一个分类函数或分类模型(也常常称作分类器),
该模型能把数据库中的数据项映射到给定类别中的某一个类中
目的
旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。

分类和回归都可用于预测
分类的输出是离散的类别值,而回归的输出是连续数值。
 

构造分类器
需要有一个训练样本数据集作为输入
训练集由一组数据库记录或元组构成,
每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,
此 外,训练样本还有一个类别标记。一个具体样本的形式可表示为
(v1,v2,...,vn; c)
其中vi表示字段值,c表示类别。
 
分类器的构造方法
有统计方法、机器学习方法、神经网络方法

聚类技术主要是以统计方法、机器学习、神经网络等方法为基础。
比较有代表性的聚类技术是基于几何距离的聚类方法,如欧氏距离、曼哈坦距离、明考斯基距离等。
常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等

有三种分类器评价或比较尺度:
1)预测准确度;2)计算复杂度;3)模型描述的简洁度。
 

分类的效果一般和数据的特点有关
有的数据噪声大,有的有空缺值,有的分布稀疏,有的字段或属性间相关性强,有的属性是离散的而有的是连续值或混合式的。
目前普遍认为不存在某种方法能适合于各种特点的数据
 




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值