vlog-4

最新推荐文章于 2023-05-25 11:24:23 发布

qq_46458164

最新推荐文章于 2023-05-25 11:24:23 发布

阅读量251

点赞数

分类专栏： 2021寒假学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46458164/article/details/112444398

版权

2021寒假学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

vlog-4

模型估计与选择

经验误差与过拟合

在这里插入图片描述

留出法

数据集三七分，七分训练集，三分测试集

在这里插入图片描述

交叉验证法

K折交叉验证法——简单来说就是把数据集分为k分，然后进行排列组合挑选，比如5折，就是取其中一份作为测试集，剩下部分作为训练集。能取5次。将测试结果平均值返回

在这里插入图片描述

自助法

又返回的采集m次数据，每个数据被采集的概率是1/m，当m趋向无穷大，有些样本始终采集不到的概率就是 1/e。

在这里插入图片描述

思考：既然有些部分数据集采取不到，那怎么将它们作为测试集呢？

性能度量

下图一个是连续情况，另一个是离散情况

在这里插入图片描述

错误率与精度

顾名思义，一个是离散，一个是连续情况

在这里插入图片描述

查准率查全率和F1

举例，数据集5条狗，5只猫。我们模型分类

狗类：[狗1 狗2 狗3 猫1 猫2]

猫类：[猫3 猫4 猫2 狗4 狗5]。

TP就是狗类中的真正是狗的=3，FP就是狗类中的假狗-猫1猫2=2

FN就是猫类中的真正是狗的=3，FP就是猫类中的假猫-狗4狗5=2

在这里插入图片描述

此处讲解

此处我们默认在没查之前全是真确的，随着查的增多，也就是查全率增大，开始产生错误，查准率也就随之下降。

B曲线包含C曲线，就是A的查准率基本上都大于B的查准率

A曲线更B曲线比较，就是用斜率为1看。A的查准率一直到查全率大约0.9都大于B，所以A模型更好，所以只要判断平衡点大于，那么就整体都大于

在这里插入图片描述

在这里插入图片描述

一个零界点，我们假定有判定是否为狗，概率为[o.1 o.5 0.7 1],

我们取大于等于0.1的全判定为狗，p1

大于等于0.5的全为狗，p2

以此类推

在这里插入图片描述

ROC与AUC

在这里插入图片描述
本人也没搞懂鸭

代价敏感错误率与代价曲线

在这里插入图片描述

函数f（x）！=y枚举数据集中所有数据，判断是否是真正例，如果是cost01=1，如果不是cost01=0。以此统计出所有错误的/样本总数=错误率

在这里插入图片描述

假设检验

挑选出所有反的就等于选出所有正的

我们模型错误率是 $\epsilon$ ,数据集反例率是 $\widehat{\epsilon}$ 。那么反例总数有 $\widehat{\epsilon}*m$ 。不难用二项分布得出

在这里插入图片描述

数据是离散的，就是将条形图加起来求最小错误率

在这里插入图片描述

偏差与方差

在这里插入图片描述

个人理解噪声就是离群点，就是数据[1.1 1 0.9 10000]，显然 10000是错误的数据，然后我们拟合数据时候采用了 10000，加大泛化误差

在这里插入图片描述

推导公式如下

在这里插入图片描述

-2021-01-010

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
vlog-4

vlog-4模型估计与选择经验误差与过拟合留出法数据集三七分，七分训练集，三分测试集交叉验证法K折交叉验证法——简单来说就是把数据集分为k分，然后进行排列组合挑选，比如5折，就是取其中一份作为测试集，剩下部分作为训练集。能取5次。将测试结果平均值返回自助法又返回的采集m次数据，每个数据被采集的概率是1/m，当m趋向无穷大，有些样本始终采集不到的概率就是 1/e。思考：既然有些部分数据集采取不到，那怎么将它们作为测试集呢？## 性能度量##### 下图一个是连续情
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。