1.4&1.5 模型评估和选择,正则化和交叉验证


模型评估和选择

训练误差和测试误差

将预测系统的X作为输入,输入到模型里面,就可以得到预测结果。
在这里插入图片描述
学习到的模型: Y = f ^ ( X ) Y=\hat{f}(X) Y=f^(X)

训练集(Training Set): T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋯   , ( [ x N , y N ) } T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(\left[_{x_{N}}, y_{N}\right)\right\}\right. T={(x1,y1),(x2,y2),([xN,yN)}

训练误差(Training Error) : R e m p ( f ^ ) = 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) ) R_{e m p}(\hat{f})=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right) Remp(f^)=N1i=1NL(yi,f^(xi))

测试集(Test Set): T ′ = { ( x 1 ′ , y 1 ′ ) , ( x 2 ′ , y 2 ′ ) ⋯   , ( x N ′ , y N ′ ) } T^{\prime}=\left\{\left(x_{1^{\prime}}, y_{1^{\prime}}\right),\left(x_{2^{\prime}}, y_{2^{\prime}}\right) \cdots,\left(x_{N^{\prime}}, y_{N^{\prime}}\right)\right\} T={(x1,y1),(x2,y2),(xN,yN)}

测试误差(Test error): e test  = 1 N ′ ∑ i ′ = 1 N ′ L ( y i ′ , f ^ ( x i ′ ) ) e_{\text {test }}=\frac{1}{N^{\prime}} \sum_{i^{\prime}=1}^{N^{\prime}} L\left(y_{i^{\prime}}, \hat{f}\left(x_{i^{\prime}}\right)\right) etest =N1i=1NL(yi,f^(xi))

误差率(Error Rate): e t e s t = 1 N ′ ∑ i ′ = 1 N ′ I ( y i ′ ≠ f ^ ( x i ′ ) ) e_{t e s t}=\frac{1}{N^{\prime}} \sum_{i^{\prime}=1}^{N^{\prime}} I\left(y_{i^{\prime}} \neq \hat{f}\left(x_{i^{\prime}}\right)\right) etest=N1i=1NI(yi=f^(xi)) = 预测结果不等于真实结果/总数

准确率(Accuracy): r test  = 1 N ′ ∑ i ′ = 1 N ′ I ( y i ′ = f ^ ( x i ′ ) ) r_{\text {test }}=\frac{1}{N^{\prime}} \sum_{i^{\prime}=1}^{N^{\prime}} I\left(y_{i^{\prime}}=\hat{f}\left(x_{i^{\prime}}\right)\right) rtest =N1i=1NI(yi=f^(xi)) = 预测结果等于真实结果/总数

过拟合

过拟合(Over-Fitting) :学习所得模型包含参数过多,出现对已知数据预测很好,但对未知数据预测很差的现象。

在这里插入图片描述
预测误差与模型复杂度的关系:
在这里插入图片描述

正则化与交叉验证

正则化

正则化:实现结构风险最小化策略
min ⁡ f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) \min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) fFminN1i=1NL(yi,f(xi))+λJ(f)
经验风险 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) N1i=1NL(yi,f(xi))越小,误差就越小,但模型复杂度越大,预测误差是按照上方图来变化的,故而我们需要用 λ \lambda λ来权衡经验风险和模型复杂度。

常用的正则化项为L1范数L2范数
L1范数: L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ ∥ w ∥ 1 L(w)=\frac{1}{N} \sum_{i=1}^{N}\left(f\left(x_{i} ; w\right)-y_{i}\right)^{2}+\lambda\|w\|_{1} L(w)=N1i=1N(f(xi;w)yi)2+λw1
L2范数: L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ 2 ∥ w ∥ 2 2 L(w)=\frac{1}{N} \sum_{i=1}^{N}\left(f\left(x_{i} ; w\right)-y_{i}\right)^{2}+\frac{\lambda}{2}\|w\|_{2}^{2} L(w)=N1i=1N(f(xi;w)yi)2+2λw22

奥卡姆剃刀原理:在模型选择时,选择所有可能模型中,能很好解释已知数据并且十分简单的模型。

交叉验证

数据不足情况下可以使用S折交叉验证
S折交叉验证:随机将数据分为S个互不相交、大小相同的子集,其中以S-1个子集作为训练集,余下的子集作为测试集。

在这里插入图片描述


注:以上笔记素材来自于 [B站_简博士_十分钟 机器学习 系列视频 《统计学习方法》]

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值