数据挖掘中分类和聚类的区别

  • 分类是根绝以往的数据和结果对一部分数据进行结果的预测。有监督学习。
    分类预测的基本过程:历史数据是训练数据,要预测的数据称为测试数据,而结果称为类标签。分类预测主要有学习和分类两个阶段:利用数据进行模型参数的调节过程称为训练和学习,训练的结果是产生一个分类器或者分类模型,进而可以根据这个模型对测试数据进行预测,得到相应的类标签结果。类标签的数据种类分为二分类或多酚类。
  • 训练数据是有已知的类标签,而且训练数据除类标签外,其余部分的结构和测试数据需要完全一致,即特征数量要对应。
  • 分类算法有:决策树、朴素贝叶斯,神经网络,SVM,逻辑回归。

聚类:将本身没有类别的样本聚集称不同的组,这样的一组数据对象的集合称为簇,并且对每一个这样的簇都进行描述的过程。聚类的目的是使属于同一个簇的样本之间彼此相似,而不同簇的样本之间足够不相似。
与分类不同的是:进行聚类前并不知道将要划分的组的个数和类型,没有定义标签或者目标值,聚类归于无监督学习任务。
聚类方法:K-means, k-中心点法。

尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值