分类和聚类的区别及各自的常见算法

1、分类和聚类的区别:

        Classification (分类),对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习),

        Clustering (聚类),简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在Machine Learning中被称作unsupervised learning (无监督学习).

2、常见的分类与聚类算法

        所谓分类,简单来说,就是根据文本的特征或属性,划分到已有的类别中。如在自然语言处理NLP中,我们经常提到的文本分类便就是一个分类问题,一般的模式分类方法都可用于文本分类研究。常用的分类算法包括:决策树分类法,朴素贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器,神经网络法,k-最近邻法(k-nearestneighbor,kNN),模糊分类法等等。

        分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。

        而K均值(K-mensclustering)聚类则是最典型的聚类算法(当然,除此之外,还有很多诸如属于划分法K中心点(K-MEDOIDS)算法、CLARANS算法;属于层次法的BIRCH算法、CURE算法、CHAMELEON算法等;基于密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基于网格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;基于模型的方法)。

  • 12
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
分类模型和聚类模型是机器学习中两种常见的数据分析方法,它们各自有不同的特点和建模步骤。 分类模型是一种监督学习方法,其目的是将事先定义好的类别标签赋予新的数据。分类模型的特点是,它需要有已经标注的数据集作为训练集,这些数据集被称为“有标签数据”,通过对这些数据的学习,分类模型可以预测新数据所属的类别。分类模型的建模步骤包括: 1. 准备数据集:将数据集划分为训练集和测试集,并对训练集进行标注。 2. 特征提取:将训练集中的数据转化为特征向量,以便机器学习算法能够处理。 3. 选择算法:选择适合的分类算法,并使用训练集进行训练。 4. 模型评估:使用测试集评估模型的性能,检查是否存在过拟合或欠拟合现象。 聚类模型是一种无监督学习方法,其目的是将数据集中相似的数据点归为一类,不需要预先定义类别标签。聚类模型的特点是,它需要在不知道类别标签的情况下,自动对数据进行分组。聚类模型的建模步骤包括: 1. 准备数据集:将数据集准备好,不需要进行标注。 2. 特征提取:将数据集中的数据转化为特征向量,以便机器学习算法能够处理。 3. 选择算法:选择适合的聚类算法,并使用数据集进行聚类。 4. 模型评估:通过评估聚类结果的质量和稳定性来确定聚类算法的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值