监督学习和无监督学习
监督学习(Supervised Learning)
在监督学习中,我们根据已有的数据集,已知我们的正确输出,并且认为输入和输出之间存在一定的关系。监督学习问题分为“回归”和“分类”问题。
回归(regression)
在回归问题中,我们试图预测连续输出中的结果,这意味着我们试图将输入变量映射到某个连续函数。
eg:给定有关房地产市场上房屋大小的数据,请尝试预测其价格。 价格作为房屋大小的函数是一个连续的输出,因此这是一个回归问题。
分类(classification)
在分类问题中,我们改为尝试预测离散输出的结果。 换句话说,我们正在尝试将输入变量映射为离散类别。
eg:对于患有肿瘤的患者,我们必须预测肿瘤是恶性还是良性的。因此,我们可以从一组数据集中找到良/恶性肿瘤与患者年龄、肿瘤大小等的关系,判定结果是0/1(恶性与良性),因此是离散的,属于分类模型。
无监督学习(Unsupervised Learning)
在无监督学习中,我们只有一个数据集,而不知道该数据集的内在关系,自行寻找某种结构。在无监督学习的情况下,没有基于预测结果的反馈,算法需要自动找到这些没有标记的数据里面的数据结构和特征。
聚类(Clustering)
将无标签的数据集划分为多个不相交的子集,每个子集就是一类/簇,由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,可以类比理解。
eg:收集1,000,000个不同的基因,然后找到一种方法,将这些基因自动分组为通过不同变量(例如寿命,位置,角色等)在某种程度上相似或相关的组。如下图所示:
非集群(Non-clustering)
与聚类相对应,“鸡尾酒会算法”,使您可以在混乱的环境中找到结构。 (即在鸡尾酒会上从一连串的声音中识别出个人的声音和音乐)。
区别
监督学习——“right answers” given
无监督学习——no answers given
(读斯坦福吴恩达教授机器学习课程笔记)