花书阅读记录——第五章（正则化、超参数、点估计、贝叶斯估计、梯度下降、流形学习）

最新推荐文章于 2024-07-25 22:24:14 发布

jayus丶

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量107

点赞数

文章标签：学习机器学习人工智能

本文链接：https://blog.csdn.net/m0_51763225/article/details/129569435

版权

仅做个人学习记录

定义

有监督学习通常估计P(Y|X)，无监督学习通常估计P(X)

正则化

模型容量较小会导致欠拟合；模型容量过大，即参数数量大于训练样本数量，则过拟合。
过拟合的时候，有非常多组的模型参数可以拟合出样本分布，在这种情况下想要找到恰好接近于样本分布的一组模型参数非常困难，这样的模型在训练样本上表现良好，但对于未遇见过的数据，表现较差，即泛化能力差。
因此对于所设定好的模型族，即假设空间，需要对假设空间进行约束，减少假设空间中的模型数量：一是通过改变假设空间本身，以此减少模型容量；另一个方法是加入正则化项，例如对假设空间中的某一些函数增加偏好，例如权重衰减，这导致在训练过程中会优先选择假设空间中的一部分模型，以此来减少模型族的数量。
这只是正则化的理解角度以及实现方法之一，总之是通过某个角度去对假设空间进行优化，从而避免过拟合。

超参数与验证集

超参数是不方便训练的参数，需要人为设置，可以在查看模型在验证集上的效果，进而对超参数进行调整，验证集不同于测试集，测试集不能以任何形式参与训练过程

点估计

通过观察到的样本对模型参数进行估计，X=>参数，即：参数=f(样本)，参数是样本的某种函数形式。因为样本X为随机变量，所以估计出的参数也是一个随机变量。

最大似然估计

最大似然估计是点估计的一种。
作为基于频率学派的估计方法，最大似然估计在寻找可以使P(X|参数)，即使类条件概率最大的参数，因为频率学派认为参数是常数，固定存在的。
最大似然估计可以看作最小化KL散度或者交叉熵，也可以看作优化模型参数来尽可能地匹配数据分布，这些通过不同的代价函数进行表示，能够在达到最优的时候同时得到最优参数，但是目标函数值不同。

贝叶斯估计

相比于频率学派，贝叶斯学派将被估计参数视为一个随机变量，因此为被估计参数添加了一个先验分布，依靠类条件概率P(X|参数)，先验概率P(参数)，来估计后验概率P(参数|X)，有时可以理解成在观察到样本X时，将参数估计为哪个数时，那个位置的概率密度最大。除此以外，对于参数的先验分布确定，常常是人为主观确认的，这也是一种变相的对参数空间进行偏好设置，即对假设空间进行约束，也是正则化的一个角度，并且在一定程度上避免了过拟合。
在机器学习的应用中，先验分布的设置不仅仅用在了贝叶斯估计上，有时也可以和最大似然估计等方法结合，得到最大后验估计(MAP)，因为贝叶斯估计虽然有效，但是计算成本大，因此常常使用点估计得到近似点，并且让先验分布影响点估计。当然这会付出增加偏差的代价。
个人理解增加先验分布是正则化的一部分。