【人工智能】机器学习西瓜书11——经验误差与过拟合,模型评估的方法,均方误差,错误率与精度,最优阈值

我们按训练集预算法的关系进行划分。

一种训练集一种算法

经验误差与过拟合

在这里插入图片描述

  • 误差: 学习器的实际预测输出与样本的真实输出之间的差异;比如一组数据 1,2,4,5.使用阈值3,将其分为两类。假设学习器的分类结果为 1和 2,4, 5 。但是实际的结果为1,2,和4,5,分错的2就是误差。
  • 经验误差训练集的误差,也叫训练误差。相对于经验误差的,还有大家经常遇到的泛化误差,泛化误差是在新样本(测试集)的误差。
  • 过拟合:当学习器把训练样本学的“太好”了的时候,很可能已经把训练样本特点当作了潜在样本都会具有的一般性质,这会导致泛化性能下降。与过拟合相对的是“欠拟合”,这是指对训练样本的一般性质尚未学好

模型评估的方法

在这里插入图片描述

训练集

测试集保留方法

  • 留出法:三七或二八,但注意训练集测试集同分布,或多次随机划分训练多个模型取平均值
  • k折交叉验证法:将训练集随机等分为k份,取其中一份为验证集评估模型,其余k-1份为训练集训练模型,重复该步骤k次,每次都取一份不同的子集为验证集,最终得到k个不同的模型(不是对一个模型迭代k次)和k个评分,综合这k个模型的表现(平均得分或其他)评估模型在当前问题中的优劣。
    在这里插入图片描述
  • 自助法:原数据集 D D D是一个包含m个样本的数据集,通过自助法有放回的重复抽样m次,每次抽取1个数据,放到 D ′ D' D中, D ′ D' D中也有 m m m个样本,同时,原来的数据集D中不被D’包含的数据作为验证集。到底会有多少数据作为验证集呢?周老师给出了原数据集 D D D一次也未被抽中的数据的概率为:
    lim ⁡ m → ∞ ( 1 − 1 m ) m → 1 e ≈ 0.368 \lim\limits_{m \to \infty}(1-\frac{1}{m})^m \to \frac{1}{e}\approx0.368 mlim(1m1)me10.368理论状态下,验证集为 0.368 ∗ m 0.368*m 0.368m条数据
    适用:数据集较小难以划分时。缺点:改变初始分布,引入估计误差。

验证集

调参用,调参难度大,很多参数人为规定,为了调参,常加一个数据集进行验证,训练及训练,验证集看结果,调参,再训练…

性能测量

均方误差

在预测任务中,给定样例集 D = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)} D=(x1,y1),(x2,y2),...,(xm,ym)中是示例 x i x_i xi的真实标记,要评估学习器 f f f的性能,就要把学习器预测结果 f ( x ) f(x) f(x)真实标记 y y y进行比较

{ 均 方 误 差 : E ( f : D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 对 于 数 据 分 布 D 和 概 率 密 度 函 数 p ( ⋅ ) : E ( f : D ) = ∫ x ∼ D ( f ( x i ) − y i ) 2 p ( x ) d x \left\{ \begin{aligned} & 均方误差:E(f:D)=\frac{1}{m}\sum\limits_{i=1}^m(f(x_i)-y_i)^2\\ &对于数据分布D和概率密度函数p(\cdot ):E(f:D)=\int_{x\sim D}(f(x_i)-y_i)^2p(x)dx \end{aligned} \right. E(f:D)=m1i=1m(f(xi)yi)2Dp():E(f:D)=xD(f(xi)yi)2p(x)dx

错误率与精度

在这里插入图片描述

查准率查全率

在这里插入图片描述
查准率: P = T P T P + F P P=\frac{TP}{TP+FP} P=TP+FPTP
你认为的好瓜里面真的是好瓜的比例。
查全率: R = T P T P + F N R=\frac{TP}{TP+FN} R=TP+FNTP
我预测的里面好瓜占真正好瓜的比例
以查准率为纵轴、查全率为横轴作图 ,就得到
了查准率-查全率曲线,简称 “P-R曲线”在这里插入图片描述
若一个学习器的 P-R 曲线被另一个学习器的曲线完全"包住 " , 则可断言后者的性能优于前者。但往往学习器的 P-R 曲线发生了交叉难以断言两者孰优孰劣?在很多情形下,人们往往仍希望把学习器 A 与 B 比出个高低 . 这时一个比较合理的判据是比较 P-R 曲线节面积的大小,它在一定程度上表征了学习器在查准率和查全率上取得相对"双高"的比例.但这个值不太容易估算,因此人们设计了一些综合考虑查准率 、 查全率的性能度量

最优阈值

一个二分类(一张PR)

在这里插入图片描述

Fbeta加权的调和平均:对查准率和查全率的重视程度有所不同, β \beta β = 1,退化为标准的 F1; β \beta β> 1 时查全率有更大影响 ; β \beta β< 1 时查准率有更大影响。

n个二分类实现的多分类

在这里插入图片描述
这里我们详细说一下如何分解n个二分类实现多分类,主要有先计算再求和,先求和再计算两方面:
在这里插入图片描述

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一拳Marx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值