机器学习基础
学习算法
机器学习算法是一种能够从数据中学习的算法。那所谓的学习是什么意思呢?Mitchell(1997)提供了一个简洁的定义:对于某类任务和性能度量P, 一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。原文如下:
A computer program is said to learn from experience E with respect to someclass of tasks T and performance measure P, if its performance at tasks in T, asmeasured by P, improves with experience E.
经验E
大部分机器学习算法可以被理解为在整个数据集(dataset)上获取经验。数据集指得是很多样本组成的集合。根据数据类型的不同,对一个问题的建模方式有所不同。依据不同的学习方式和输入数据,机器学习主要分为以下四种学习方式:
监督(supervised)学习:
- 监督学习是使用已知正确答案的示例样本来训练网络。已知数据和其一一对应的标签(label或目标(target),训练一个映射关系,将输入数据映射到标签的过程。
- 监督式学习的常见应用场景如分类问题和回归问题。
- 常见算法有逻辑回归(Logistic Regression)和反向传递神经网络(Back Propagation Neural Network)
无监督式(unsupervised)学习:
- 在无监督式学习中,数据并不被特别标识,适用于具有数据集但无标签的情况。学习模型是为了推断出数据中的一些内在结构。
- 常见的应用场景包括关联规则的学习以及聚类等。
- 常见算法包括Apriori算法以及k-Means算法。
半监督式学习:
- 在此学习方式下,输入数据部分被标记,部分没有被标记,例如医疗影像数据,通常可以用聚类假设(duster assumption)和流形假设(manifold assumption)对数据作处理(无论聚类假设还是流形假设,其本质都是"相似的样本拥有相似的输出" 这个基本假设),这种学习模型可以用来进行预测。
- 应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,通过对已标记数据建模,在此基础上,对未标记数据进行预测。
- 常见算法如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM)等。
弱监督学习:
- 弱监督学习可以看做是有多个标记的数据集合,次集合可以是空集,单个元素,或包含多种情况(没有标记,有一个标记,和有多个标记)的多个元素。
- 数据集的标签是不可靠的,这里的不可靠可以是标记不正确,多种标记,标记不充分,局部标记等。
- 已知数据和其一一对应的弱标签,训练一个智能算法,将输入数据映射到一组更强的标签的过程。标签的强弱指的是标签蕴含的信息量的多少,比如相对于分割的标签来说,分类的标签就是弱标签。
- 举例,告诉一张包含气球的图片,需要得出气球在图片中的位置及气球和背景的分割线,这就是已知弱标签学习强标签的问题。
大致来说,无监督学习涉及观察随机向量 x x x 的好几个样本,试图显式或隐式学习出概率分布 p ( x ) p(x) p(x) ,或者是该分布的一些有意思的性质;而监督学习包含观察随机向量 x x x