花书阅读记录——第五章(正则化、超参数、点估计、贝叶斯估计、梯度下降、流形学习)

仅做个人学习记录

定义

有监督学习通常估计P(Y|X),无监督学习通常估计P(X)

正则化

模型容量较小会导致欠拟合;模型容量过大,即参数数量大于训练样本数量,则过拟合。
过拟合的时候,有非常多组的模型参数可以拟合出样本分布,在这种情况下想要找到恰好接近于样本分布的一组模型参数非常困难,这样的模型在训练样本上表现良好,但对于未遇见过的数据,表现较差,即泛化能力差。
因此对于所设定好的模型族,即假设空间,需要对假设空间进行约束,减少假设空间中的模型数量:一是通过改变假设空间本身,以此减少模型容量;另一个方法是加入正则化项,例如对假设空间中的某一些函数增加偏好,例如权重衰减,这导致在训练过程中会优先选择假设空间中的一部分模型,以此来减少模型族的数量。
这只是正则化的理解角度以及实现方法之一,总之是通过某个角度去对假设空间进行优化,从而避免过拟合。

超参数与验证集

超参数是不方便训练的参数,需要人为设置,可以在查看模型在验证集上的效果,进而对超参数进行调整,验证集不同于测试集,测试集不能以任何形式参与训练过程

点估计

通过观察到的样本对模型参数进行估计,X=>参数,即:参数=f(样本),参数是样本的某种函数形式。因为样本X为随机变量,所以估计出的参数也是一个随机变量。

最大似然估计

最大似然估计是点估计的一种。
作为基于频率学派的估计方法,最大似然估计在寻找可以使P(X|参数),即使类条件概率最大的参数,因为频率学派认为参数是常数,固定存在的。
最大似然估计可以看作最小化KL散度或者交叉熵,也可以看作优化模型参数来尽可能地匹配数据分布,这些通过不同的代价函数进行表示,能够在达到最优的时候同时得到最优参数,但是目标函数值不同。

贝叶斯估计

相比于频率学派,贝叶斯学派将被估计参数视为一个随机变量,因此为被估计参数添加了一个先验分布,依靠类条件概率P(X|参数),先验概率P(参数),来估计后验概率P(参数|X),有时可以理解成在观察到样本X时,将参数估计为哪个数时,那个位置的概率密度最大。除此以外,对于参数的先验分布确定,常常是人为主观确认的,这也是一种变相的对参数空间进行偏好设置,即对假设空间进行约束,也是正则化的一个角度,并且在一定程度上避免了过拟合。
在机器学习的应用中,先验分布的设置不仅仅用在了贝叶斯估计上,有时也可以和最大似然估计等方法结合,得到最大后验估计(MAP),因为贝叶斯估计虽然有效,但是计算成本大,因此常常使用点估计得到近似点,并且让先验分布影响点估计。当然这会付出增加偏差的代价。
个人理解增加先验分布是正则化的一部分

随机梯度下降

运用统计的思想,当训练样本较多时,为每个样本计算梯度是一件计算量巨大的任务。因此在训练时,提取出训练集中的一组数据(mini batch),并对这一组数据进行梯度计算,以及计算期望,用于总体梯度的近似。
这使数据集增加时,模型训练时间不会必须增加。

局部不变性

在高维空间中,不同参数区间组成的小区域非常多,经常会出现某个小区域中没有训练样本的情况,局部不变性设定f(x)=f(x+e)(这里是约等于以及小变动)。

流形学习

在样本特征所在空间中,生活中有意义的样本的特征只占据空间中的一小部分,并且样本在这个空间中高度集中,即概率质量高度集中。
在特征空间中,随机取出一点所得到的样本在日常生活中通常是毫无意义的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值