《统计学习方法》学习笔记(一)

1. 损失函数/代价函数

常用的损失函数有:
(1)0-1损失函数(0-1 loss function)
在这里插入图片描述
(2)平方损失函数(quadratic loss function)
在这里插入图片描述
(3)绝对损失函数(absolute loss function)

在这里插入图片描述
(4)对数损失函数(logarithmic loss function)
在这里插入图片描述
(5)指数损失函数(exponential loss function)
在这里插入图片描述

(6)交叉熵损失函数 (Cross-entropy loss function)
在这里插入图片描述
损失函数越小,模型越好。损失函数是一次的拟合结果,一次具有偶然性,因此提出了风险函数。

2. 风险函数/期望损失

理论上模型关于联合分布的平均意义下的损失,也就是损失函数的期望。
风险函数是用来度量平均意义下的模型预测能力的好坏。
在这里插入图片描述
学习的目标在于选择期望风险最小的模型,但是P(X,Y)是未知的,因此,无法直接进行求解。

3. 经验风险(empirical risk)/经验损失函数(empirical loss)

模型关于训练数据集的平均损失。
在这里插入图片描述
期望风险 是模型关于联合分布的期望损失,经验风险 是模型在训练集上的平均损失。根据大数定律,当样本容量趋于无穷时,这两个损失基本相等。但是现实中训练样本数量往往有限,从而用经验风险估计期望风险往往并不理想,需要对经验风险进行一定的矫正,这就涉及到监督学习的两个基本策略:经验风险最小化和结构风险最小化。

4. 经验风险最小化(ERM)和结构风险最小化(SRM)

4.1 经验风险最小化(ERM)

经验风险最小化策略认为,经验风险最小的模型就是最优的模型,即:
在这里插入图片描述
当样本容量较小时,经验风险最小化的准则会导致过拟合问题的出现。
训练误差和测试误差与模型复杂度的关系
在这里插入图片描述
当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;测试误差会先减小,达到最小值后又增大,当模型复杂度过大时,就会发生过拟合现象。

4.2 结构风险最小化(SRM)

结构风险最小化等价于正则化(也叫做罚项)。其表达式为:
在这里插入图片描述
其中 J(f)为模型的复杂度,是定义在假设空间F上的泛函。其中λ是系数,用于权衡经验风险和模型复杂度对模型优劣的影响。
正则化(regularization)
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项,也称为罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项值就越大。
LP范数是常用的正则项。
范数:
在这里插入图片描述

  • L0范数:指向量中非0的元素的个数。(NP难问题,一般用L1替代)
  • L1范数:表示向量中所有元素绝对值的和。
  • L2范数: 表示某个向量中所有元素平方和再开根。

以yθ12x为例(涉及到凸优化等):
在这里插入图片描述
L1正则化相对于L2正则化具有稀疏性(也就是有更多的0)。

参考文献:
统计学习方法————李航

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值