《统计学习方法》学习笔记（一）

最新推荐文章于 2022-04-22 21:09:38 发布

kaili_ya

最新推荐文章于 2022-04-22 21:09:38 发布

阅读量255

点赞数

分类专栏：统计学习文章标签：机器学习算法

统计学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

损失函数（loss function）/代价函数（cost function）和风险函数（risk function）/期望损失（expected loss）

1. 损失函数/代价函数
2. 风险函数/期望损失
3. 经验风险（empirical risk）/经验损失函数（empirical loss）
4. 经验风险最小化（ERM）和结构风险最小化（SRM）
- 4.1 经验风险最小化（ERM）
- 4.2 结构风险最小化（SRM）

1. 损失函数/代价函数

常用的损失函数有：
（1）0-1损失函数（0-1 loss function）
在这里插入图片描述
（2）平方损失函数（quadratic loss function）

（3）绝对损失函数（absolute loss function）

在这里插入图片描述
（4）对数损失函数（logarithmic loss function）

（5）指数损失函数（exponential loss function）

（6）交叉熵损失函数 (Cross-entropy loss function)
在这里插入图片描述
损失函数越小，模型越好。损失函数是一次的拟合结果，一次具有偶然性，因此提出了风险函数。

2. 风险函数/期望损失

理论上模型关于联合分布的平均意义下的损失，也就是损失函数的期望。
风险函数是用来度量平均意义下的模型预测能力的好坏。
在这里插入图片描述
学习的目标在于选择期望风险最小的模型，但是P(X,Y)是未知的，因此，无法直接进行求解。

3. 经验风险（empirical risk）/经验损失函数（empirical loss）

模型关于训练数据集的平均损失。
在这里插入图片描述
期望风险是模型关于联合分布的期望损失，经验风险是模型在训练集上的平均损失。根据大数定律，当样本容量趋于无穷时，这两个损失基本相等。但是现实中训练样本数量往往有限，从而用经验风险估计期望风险往往并不理想，需要对经验风险进行一定的矫正，这就涉及到监督学习的两个基本策略：经验风险最小化和结构风险最小化。

4. 经验风险最小化（ERM）和结构风险最小化（SRM）

4.1 经验风险最小化（ERM）

经验风险最小化策略认为，经验风险最小的模型就是最优的模型，即：
在这里插入图片描述
当样本容量较小时，经验风险最小化的准则会导致过拟合问题的出现。
训练误差和测试误差与模型复杂度的关系

当模型的复杂度增大时，训练误差会逐渐减小并趋向于0；测试误差会先减小，达到最小值后又增大，当模型复杂度过大时，就会发生过拟合现象。

4.2 结构风险最小化（SRM）

结构风险最小化等价于正则化（也叫做罚项）。其表达式为：
在这里插入图片描述
其中 J(f)为模型的复杂度，是定义在假设空间F上的泛函。其中λ是系数，用于权衡经验风险和模型复杂度对模型优劣的影响。
正则化（regularization）
正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项，也称为罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项值就越大。
L_P范数是常用的正则项。
范数：
在这里插入图片描述

L₀范数：指向量中非0的元素的个数。（NP难问题，一般用L1替代）
L₁范数：表示向量中所有元素绝对值的和。
L₂范数：表示某个向量中所有元素平方和再开根。

以y_θ=θ₁+θ₂x为例（涉及到凸优化等）：
在这里插入图片描述
L1正则化相对于L2正则化具有稀疏性（也就是有更多的0）。

参考文献：
统计学习方法————李航

kaili_ya

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》学习笔记（一）

统计学习方法笔记：损失函数损失函数（loss function）/代价函数（cost function）和风险函数（risk function）/期望损失（expected loss）损失函数/代价函数风险函数/期望损失经验风险（empirical risk）/经验损失函数（empirical loss）经验风险最小化（ERM）和结构风险最小化（SRM）训练误差和测试误差与模型复杂度的关系损失函数（loss function）/代价函数（cost function）和风险函数（risk function
复制链接

扫一扫

专栏目录