目录
一、基本概念
1 特征(feature)
数据的特征。
举例:书的内容
2 标签(label)
数据的标签。
举例:书属于的类别,例如 “计算机”“图形学”“英文书”“教材” 等。
3 学习(learning)
将很多数据丢给计算机分析,以此来训练该计算机,培养计算机给数据分类的能力。换句话说,学习指的就是找到特征与标签的映射(mapping)关系。这样当有特征而无标签的未知数据输入时,我们就可以通过已有的关系得到未知数据标签。
举例:把很多书交给一个学生,培养他给书本分类的能力。
4 分类(classification)
定性输出称为分类,或者说是离散变量预测。
举例:预测明天是阴、晴还是雨,就是一个分类任务。
5 回归(regression)
定量输出称为回归,或者说是连续变量预测;
举例:预测明天的气温是多少度,这是一个回归任务;
6 聚类(clustering)
无监督学习的结果。聚类的结果将产生一组集合,集合中的对象与同集合中的对象彼此相似,与其他集合中的对象相异。
举例:没有标准参考的学生给书本分的类别,表示自己认为这些书可能是同一类别的(具体什么类别不知道)。
二、有监督学习(supervised learning)
不仅把训练数据丢给计算机,而且还把分类的结果(数据具有的标签)也一并丢给计算机分析。
计算机进行学习之后,再丢给它新的未知的数据,它也能计算出该数据导致各种结果的概率,给你一个最接近正确的结果。
由于计算机在学习的过程中不仅有训练数据,而且有训练结果(标签),因此训练的效果通常不错。
举例:不仅把书给学生进行训练给书本分类的能力,而且把分类的结果(哪本书属于哪些类别)也给了学生做标准参考。
有监督学习的结果可分为两类:分类或回归。
在监督式学习下,输入数据被称为 “训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中 “垃圾邮件”“非垃圾邮件”,对手写数字识别中的 “1“,”2“,”3“,”4“等。在建立预测模型的时候,监督式学习建立一个学习过程,将预测结果与 “训练数据” 的实际结果进行比较,不断的调整预测模型,直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network)
三、无监督学习(unsupervised learning)
只给计算机训练数据,不给结果(标签),因此计算机无法准确地知道哪些数据具有哪些标签,只能凭借强大的计算能力分析数据的特征,从而得到一定的成果,通常是得到一些集合,集合内的数据在某些特征上相同或相似。
举例:只给学生进行未分类的书本进行训练,不给标准参考,学生只能自己分析哪些书比较像,根据相同与相似点列出清单,说明哪些书比较可能是同一类别的。
在非监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括 Apriori 算法以及 k-Means 算法。
四、半监督学习(semi-supervised learning)
有监督学习和无监督学习的中间带就是半监督学习(semi-supervised learning)。对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常远远大于有标签数据数量(这也是符合现实情况的)。
隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。
举例:给学生很多未分类的书本与少量的清单,清单上说明哪些书属于同一类别。
SSL (半监督学习)的分类:
从不同的学习场景看,SSL 可分为四大类:
1.半监督分类
半监督分类 (Semi-Supervised Classification):是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签 取有限离散值。
2.半监督回归
半监督回归 (Semi-Supervised Regression):在无输出的输入的帮助下训练有输出的输入,获得比只用有输出的输入训练得到的回归器性能更好的回归器,其中输出取连续值。
3.半监督聚类
半监督聚类 (Semi-Supervised Clustering):在有类标签的样本的信息帮助下获得比只用无类标签的样例得到的结果更好的簇,提高聚类方法的精度。
4.半监督降维
半监督降维 (Semi-Supervised Dimensionality Reduction):在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束 (Pair-Wise Constraints) 的结构不变,即在高维空间中满足正约束 (Must-Link Constraints) 的样例在低维空间中相距很近,在高维空间中满足负约束 (Cannot-Link Constraints) 的样例在低维空间中距离很远。
在半监督学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。