符号描述
1.D={x1,x2,…,xm} :m个示例的数据集,xi∈X,X为样本空间。
2.对于每个示例xi={xi1,xi2,…,xid},d表示维数。xij是指示例xi在第j维上的取值。
3.(xi,yi)表示第i个样例xi及其标记yi,其中yi1∈Y,Y表示标记空间(或输出空间)。
分类&回归
分类:预测的是离散值;
回归:预测的是连续值;
一般的,预测任务是希望建立一个从输入空间X到输出空间Y的映射f:X→Y。
监督&无监督
分类标准:训练数据是否拥有标记信息;
监督学习:有标记
~~~~~~~
代表:分类算法和回归算法模型
无监督学习:无标记
~~~~~~~
代表:聚类算法
泛化
机器学习的目标:使得学习的模型能够很好的使用于“新样本”。
泛化:学得的模型适用于新样本的能力就叫做泛化能力。具有泛化能力的模型能够更好的适用于整个样本空间。
假设
我们通常假设样本空间中全体样本服从一个未知的分布D,我们获得的每个样本是独立同分布的(independent and identically distributed 简称i.i.d.)。
一般的,我们获得的样本数量越多,我们获得的分布D的信息越多,我们更容易获得具有强泛化能力的学习模型。
归纳&演绎
归纳:特殊到一般,“ 泛化 ” 过程;
演绎:一般到特殊,” 特化 “ 过程;
版本空间
学习空间看作是在所有假设祖成的空间里进行搜索的过程,我们通常需要选择一种策略对假设空间搜索才能获得解。我们搜索的目标是找到于训练集匹配的假设。现实生活中我们通常面临巨大的假设空间,但是学习过程是基于有限样本进行的。因此可能会存在多个假设和训练集一致的情况(多解情况),即存在假设集合,我们称之为 版本空间。
归纳偏好
假设学习后产生两种假设,由于我们必须产生一个模型,因此,我们对于产生结果的选择就会产生偏好。而机器学习算法在学习过程中对某种假设的偏好,就叫做归纳偏好(或偏好)。
例如在图1.3里,存在多条曲线与有限样本训练集一致,算法对于其中一种的选择就叫做偏好。
任何机器学习算法都必须有其偏好,否则我们将会得到假设时而正确时而错误的结果,从而得不到确切的结果。
如何确立偏好
奥卡姆剃须刀:常用,自然科学的研究原则。即有多个假设与观察一致,则选择最简单的那个。
注意奥卡姆也不是完全可行,奥卡姆原则可能在有些情况下会失效,图1.3中的B线也可能会比A更贴合训练集;奥卡姆并非唯一可行,当奥卡姆原则无法使用时,我们也应当借助其他机制。