有监督学习与无监督学习的几大区别

最新推荐文章于 2024-07-18 23:15:00 发布

苏格拉没底——

最新推荐文章于 2024-07-18 23:15:00 发布

阅读量5.4k

点赞数 4

分类专栏： Random-杂七杂八

Random-杂七杂八专栏收录该内容

23 篇文章 0 订阅

订阅专栏

对比一：有标签 vs 无标签

有监督机器学习又被称为“有老师的学习”，所谓的老师就是标签。有监督的过程为先通过已知的训练样本（如已知输入和对应的输出）来训练，从而得到一个最优模型，再将这个模型应用在新的数据上，映射为输出结果。再经过这样的过程后，模型就有了预知能力。

而无监督机器学习被称为“没有老师的学习”，无监督相比于有监督，没有训练的过程，而是直接拿数据进行建模分析，意味着这些都是要通过机器学习自行学习探索。这听起来似乎有点不可思议，但是在我们自身认识世界的过程中也会用到无监督学习。比如我们去参观一个画展，我们对艺术一无所知，但是欣赏完多幅作品之后，我们也能把它们分成不同的派别。比如哪些更朦胧一点，哪些更写实一些。即使我们不知道什么叫做朦胧派和写实派，但是至少我们能把他们分为两个类。

对比二：分类 vs 聚类

有监督机器学习的核心是分类，无监督机器学习的核心是聚类（将数据集合分成由类似的对象组成的多个类）。有监督的工作是选择分类器和确定权值，无监督的工作是密度估计（寻找描述数据统计值），这意味着无监督算法只要知道如何计算相似度就可以开始工作。

对比三：同维 vs 降维

有监督的输入如果是n维，特征即被认定为n维，也即y=f(xi)或p(y|xi), i =n，通常不具有降维的能力。而无监督经常要参与深度学习，做特征提取，或者干脆采用层聚类或者项聚类，以减少数据特征的维度。

如何选择有监督和无监督

了解以上对比后，我们在做数据分析时，就可以高效地做选择了。

首先，我们查看现有的数据情况。假如在标签和训练数据都没有的情况下，毫无疑问无监督是最佳选项。但其实对数据了解得越充分，模型的建立就会越准确，学习需要的时间就会越短。我们主要应该了解数据的以下特性: 特征值是离散型变量还是连续型变量；特征值中是否存在缺失的值；何种原因造成缺失值；数据中是否存在异常值；某个特征发生的频率如何。