统计学习笔记一—统计学习三要素

最新推荐文章于 2022-12-02 11:05:44 发布

yealxxy

最新推荐文章于 2022-12-02 11:05:44 发布

阅读量3.1k

点赞数 2

分类专栏：统计学习系列笔记文章标签：统计学算法

本文链接：https://blog.csdn.net/u014248127/article/details/78488736

版权

统计学习系列笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

统计学习的三要素为：模型、策略、算法。

一、模型
（1）在监督学习当中，我们的目的是学习一个由输入到输出的映射，这个映射就是模型。一般来说，模型有两种形式，一种是概率模型（条件概率分布P(Y|X)），另一种形式是非概率模型（决策函数Y = f(X)）。

（2）假设空间是一集合：由输入空间到输出空间所有映射的集合。即：条件概率的集合、或者决策函数的集合。

二、策略：就是从假设空间中找到最优的映射（模型）
1，先介绍损失函数和风险函数
损失函数是用来度量模型一次映射结果的好坏；风险函数（期望损失）是用度量平均意义下模型预测的好坏。损失函数的期望是：

这里写图片描述
风险函数的计算需要用到P(Y|X)，我们对它又不可知，所以监督学习就成了一个病态问题。既然这样，我们就想，在统计学中有一个大数定律，如果我在输入输出空间中取一个足够大的样本，用这个样本来近似的计算风险函数R_{exp}(f)。基于这样的想法，我们对于含有N组数据的训练集，定义经验损失函数：
这里写图片描述
根据大数定律，当N趋近于无穷大的时候，经验风险函数就趋近于风险函数。

2，学习过程在假设空间中选择经验风险最小的，统计学习中的策略一般有两种——经验风险最小化，结构风险最小化
经验风险最小化（ERM）:极大似然估计就是经验风险最小化的例子，当模型是概率模型是，经验风险最小化就是极大似然估计。

$这里写图片描述$

结构风险最小化（SRM）:为了防止过拟合现象，结构风险最小化这个策略被提了出来。 $这里写图片描述$
其中， $这里写图片描述$ 表示的是模型的复杂度。模型越复杂， $这里写图片描述$ 的值就越大。 $这里写图片描述$ 是一个大于等于0的系数，用来做一个trade-off的作用，平衡经验损失和模型复杂度的一个系数。可以从这个式子看出来， $这里写图片描述$ 起到是一个惩罚项的作用，当模型越复杂，惩罚项越大。