《统计学习方法》笔记第一章

1.在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。输入与输出空间可以是有限元素的集合,也可以是整个欧式空间。输入空间与输出空间可以是同一个空间,也可以是不同的空间;但通常输出空间远远小于输入空间。

2.损失函数和风险函数
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
常见的损失函数L有0-1损失函数、平方损失函数、绝对损失函数、对数损失函数等。
损失函数数值越小,模型就越好。
在这里插入图片描述

3.经验风险最小化的策略认为,经验风险最小的模型是最优的模型,根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题。当样本容量足够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛采用。比如,极大似然估计就是经验风险最小化的一个例子,当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。
但是,当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生“过拟合”问题。
结构风险最小化是为了防止过拟合而提出来的策略,结果风险最小化等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或惩罚项。结构风险的定义是:
在这里插入图片描述
模型f越负责,复杂度就越大;反之,模型越简单,复杂度就越小 。也就是说,复杂度表示了对复杂模型的惩罚。λ≥0是系数,用以权衡经验风险和模型复杂度。结构风险小需要经验风险与模型复杂度同时小。结风险小的模型往往对训练数据以及位置的测试数据都有较好的预测。

4.算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。

1.4.2 如果一味地追求提高对训练数据的预测能力,所选模型的复杂度则往往会比其他模型更高。这种现象称为过拟合。过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,,但对未知数据预测得很差的现象。可以说模型选择旨在避免过拟合并提高模型的预测能力。
在多项式函数拟合中可以看到,随着多项式次数(模型复杂度)的增加,训练误差会减小,直至趋向于0,但是测试误差确不如此,它会随着多项式次数(模型复杂度)的增加先减小而后增大。而最终的目的是使测试误差达到最小,这样,在多项式函数拟合中,就要选择合适的多项式次数,以达到这一目的。
长图存在过拟合
1.5.1 模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如,正则化可以是模型参数向量的范数。
正则化一般具有如下形式:
在这里插入图片描述
其中第1项就是经验风险,第2项就是正则化项,λ≥0为调整两者之间关系的系数。
正则化项可以取不同的形式。例如,回归问题中,损失函数时平方损失,正则化项可以是参数向量的L2范数:在这里插入图片描述
正则化项也可以是参数向量的L1范数:
在这里插入图片描述
第一项的经验风险较小的模型可能较复杂(有多个非零参数),这时第2项的模型复杂度会较大。正则化的作用是选择经验风险和模型复杂度同时较小的模型。
正则化符合奥卡姆剃刀原理。奥卡姆剃刀原理应用于模型选择时变为以下 想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。从贝叶斯估计的角度来看,这则化对应于模型的先验概率,可以假设复杂的模型有较大的先验概率,简单的模型有较小的先验概率。

1.5.2
一、简单交叉验证方法:首先随机地将已给数据分为两部分,一部分作为训练集,另一部分作为测试集(例如,70%的数据为训练集,30%的数据为测试集);然后用训练集在各种条件下(例如,不同的参数个数)训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
二、S折交叉验证:应用最多的是S折交叉验证(S-fold-cross validation),方法如下:首先随机地将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。
注:Python中sklearn.cross_validation交叉验证
三、留一交叉验证:S折交叉验证的特殊情形是S=N,称为留一交叉验证,往往在数据缺乏的情况下使用,这里,N是给数据集的容量。

1.7生成模型与判别模型
监督学习的任务就是学习一个模型,应用这一个模型,对给定的输入预测相应的输出。这个模型的一般形式为决策函数:
在这里插入图片描述
监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach),所学到的模型分别称为生成模型和判别模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值