聚类分简单来讲:有监督 -> 分类（…

sjpljr

于 2017-04-14 10:03:59 发布

阅读量9.9k

点赞数 1

分类专栏：统计分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sjpljr/article/details/70169211

版权

统计分析专栏收录该内容

63 篇文章 10 订阅

订阅专栏

简单来讲:

有监督 -> 分类（回归） -> 识别；

无监督 -> 聚类 -> 分割；

' -> ' 表示对应关系

（ps:这个说法来自于《学习Opencv》这样讲不知道有没有问题，目前我是这样理解的）

一、分类和聚类

简单地说，分类(Categorization or Classification)就是按照某种标准给对象贴标签(label)，再根据标签来区分归类。

简单地说，聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。

区别是：分类是事先定义好类别，类别数不变。分类器需要由人工标注的分类训练语料训练得到，属于有指导学习范畴。

聚类则没有事先预定的类别，类别数不确定。聚类不需要人工标注和预先训练分类器，类别在聚类过程中自动生成。

适用场景：分类适合类别或分类体系已经确定的场合，比如按照国图分类法分类图书；

聚类则适合不存在分类体系、类别数不确定的场合，一般作为某些应用的前端，比如多文档文摘、搜索引擎结果后聚类(元搜索)等。

稍微具体的讲就是：

分类的目的是学会一个分类函数或分类模型(也常常称作分类器 ),该模型能把数据库中的数据项映射到给定类别中的某一个类中。

要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段(又称属性或特征)值组成的特征向量，

此外，训练样本还有一个类别标记。一个具体样本的形式可表示为：(v1,v2,...,vn; c)；其中vi表示字段值，c表示类别。分类器的构造方法有统计方法

、机器学习方法、神经网络方法等等。

聚类(clustering)是指根据“物以类聚”原理，将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程。

它的目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。与分类规则不同，进行聚类前并不知道将要划分成几个组和什么样的组，

也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系，挖掘的知识用以属性名为变量的数学方程来表示。聚类技术正在蓬勃发展，

涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域，聚类分析已经成为数据挖掘研究领域中一个非常活跃的研究课题。

常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、clarans、 birch、CLIQUE、dbscan等。

二、有监督学习和无监督学习

简单来说：

有监督学习：使用的是有标签的数据（即实现分好类了）

无监督学习：使用的数据时没有标签的。

附：摘自知乎

首先看什么是学习（learning）？一个成语就可概括：举一反三。此处以高考为例，高考的题目在上考场前我们未必做过，但在高中三年我们做过很多很多题目，

懂解题方法，因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似：我们能不能利用一些训练数据（已经做过的题），使机器能够利用它们（解题方法）

分析未知数据（高考的题目）？

最简单也最普遍的一类机器学习算法就是分类（classification）。对于分类，输入的训练数据有特征（feature），有标签（label）。所谓的学习，其本质就是

找到特征和标签间的关系（mapping）。这样当有特征而无标签的未知数据输入时，我们就可以通过已有的关系得到未知数据标签。

在上述的分类过程中，如果所有训练数据都有标签，则为有监督学习（supervised learning）。如果数据没有标签，显然就是无监督学习（unsupervised learning）

了，也即聚类（clustering）。

（但有监督学习并非全是分类，还有回归（regression），此处不细说。（哇擦，贵圈太乱，逼着我用了这么多括号））

目前分类算法的效果普遍还是不错的（研究者们每天都在outperform其他人……），相对来讲，聚类算法就有些惨不忍睹了。（聚类：这不是我的错嘤嘤嘤嘤└(T_T;)┘）

确实，无监督学习本身的特点使其难以得到如分类一样近乎完美的结果。这也正如我们在高中做题，答案（标签）是非常重要的，假设两个完全相同的人进入高中，一个正常

学习，另一人做的所有题目都没有答案，那么想必第一个人高考会发挥更好，第二个人会发疯。

这时各位可能要问，既然分类如此之好，聚类如此之不靠谱（分类<(￣︶￣)/，聚类└(T_T;)┘），那为何我们还可以容忍聚类的存在？因为在实际应用中，标签的获取

常常需要极大的人工工作量，有时甚至非常困难。例如在自然语言处理（NLP）中，Penn Chinese Treebank在2年里只完成了4000句话的标签……

这时有人可能会想，难道有监督学习和无监督学习就是非黑即白的关系吗？有没有灰呢？Good idea。灰是存在的。二者的中间带就是半监督学习（semi-supervised

learning）。对于半监督学习，其训练数据的一部分是有标签的，另一部分没有标签，而没标签数据的数量常常极大于有标签数据数量（这也是符合现实情况的）。隐藏在

半监督学习下的基本规律在于：数据的分布必然不是完全随机的，通过一些有标签数据的局部特征，以及更多没标签数据的整体分布，就可以得到可以接受甚至是非常好的

分类结果。（此处大量忽略细节(￣ε￣；)）

因此，学习家族的整体构造是这样的：

有监督学习（分类，回归）

↕

半监督学习（分类，回归），transductive learning（分类，回归）

↕

半监督聚类（有标签数据的标签不是确定的，类似于：肯定不是xxx，很可能是yyy）

↕

无监督学习（聚类）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。