统计学习基础知识

最新推荐文章于 2024-09-10 09:39:00 发布

believe0ne

最新推荐文章于 2024-09-10 09:39:00 发布

阅读量398

点赞数

分类专栏：机器学习文章标签：统计学机器学习

本文链接：https://blog.csdn.net/believe0ne/article/details/52740336

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1、学习三要素：模型、策略、算法
模型：即所要学习问题的条件概率分布或决策函数，即想要解决什么样的问题以及对该问题的统计学抽象，加上一定的假设。
策略：学习最优模型的优化方法，一般有两种：经验风险最小化和结构风险最小化。这两个方法是可以同时使用的，一般来说，也都是同时使用的。
经验风险最小化，可以简单理解为对损失函数期望的最小化估计。期望风险就是泛化误差，即该模型对未知数据的预测能力。极大似然估计就是一种模型为条件概率模型，损失函数为对数损失函数时的经验风险最小化估计。
结构风险最小化，等价于正则，是一种为了避免过拟合而提出的这种策略，目标是选择经验风险和模型复杂度同时小的模型。最大后验概率估计是一种极大似然估计的特例，增加了先验概率作为正则项来表示模型复杂度。符合Occam原理：在所有的可以选择的模型中，能够很好的解释已知数据并且十分简单的模型才是最好的模型。
算法：具体实现。
2、避免过拟合的方法：
正则项
减少特征维度
Dropout（神经网络）
增加数据集
3、正则项
比较常用的两种正则项为 $L_1$ (1)和 $L_2$ (2)范数，一种说法表示 $L_1$ 范数服从Laplacian分布，而 $L_2$ 服从Gaussian分布，但是并不理解。通俗来说，其目的均是使模型复杂度最低，即参数尽可能稀疏。 $L_1$ 是一个绝对稀疏的正则项， $L_2$ 是一个相对稀疏的正则项，是为了解决 $L_1$ 不可微问题而提出的一个近似估计。这里关于 $L_1$ 范数的稀疏性可以从如下推导得出。