什么是非监督学习
现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。
简单的说就是在未加标签的数据中,试图找到隐藏的结构。
区别于监督学习和强化学习无监督学习——提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案。
实例——聚类
无监督学习里典型例子是聚类。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法对的出发点是如何计算相似度就。
聚类算法一般有五种方法,最主要的是划分方法和层次方法两种。
划分聚类算法通过优化评价函数把数据集分割为K个部分,它需要K作为 输人参数。典型的分割聚类算法有K-means算法(具体看我上一篇博客
添加链接描述), K-medoids算法、CLARANS算法。
层次聚类由不同层次的分割聚类组成,层次之间的分割具有嵌套的关系。它不需要输入参数,这是它优于分割聚类 算法的一个明显的优点,其缺点是终止条件必须具体指定。典型的分层聚类算法有BIRCH算法、DBSCAN算法和CURE算法等。