模型评估与模型参数选择

若对于给定的输入??,若某个模型的输 出??ො = ?? ?? 偏离真实目标值??,那么就 说明模型存在误差; • ??ො偏离??的程度可以用关于??ො和??某个函 数?? ??, ??ො 来表示,作为误差的度量标 准:这样的函数 ??ሺ??, ??ොሻ 称为损失函数

在某种损失函数度量下,训练集上的平 均误差被称为训练误差,测试集上的误 差称为泛化误差。 • 由于我们训练得到一个模型最终的目的 是为了在未知的数据上得到尽可能准确 的结果,因此泛化误差是衡量一个模型 泛化能力的重要标准。

模型评估与模型参数选择
误差:预测输出??ො与真实输出??之间的差异;

• 经验误差、训练误差:在训练集上的误差;

• 泛化误差:在新样本上的误差。

• 泛化误差越小越好,经验误差不一定越小越好,可能导致过拟合。

模型评估与模型参数选择

3种数据集之间的关系: •训练集相当于上课学知识 •验证集相当于课后的的练习题,用来纠正和强化学到的知识

•测试集相当于期末考试,用来最终评估学习效果

数据集:训练集、验证集、测试集

• 当我们的模型训练好之后,我们并不知道他的表现如何。这个时候就可以使用验证集 (Validation Dataset)来看看模型在新数据(验证集和测试集是不同的数据)上的表现如何。 同时通过调整超参数,让模型处于最好的状态。

验证集
• 当我们的模型训练好之后,我们并不知道他的表现如何。这个时候就可以使用验证集 (Validation Dataset)来看看模型在新数据(验证集和测试集是不同的数据)上的表现如何。 同时通过调整超参数,让模型处于最好的状态。

• 验证集有2个主要的作用: • 评估模型效果,为了调整超参数而服务 • 调整超参数,使得模型在验证集上的效果最好 • 说明: • 验证集不像训练集和测试集,它是非必需的。如果不需要调整超参数,就可以不使用验证集, 直接用测试集来评估效果。 • 验证集评估出来的效果并非模型的最终效果,主要是用来调整超参数的,模型最终效果以测 试集的评估结果为准。

测试集
• 当我们调好超参数后,就要开始「最终考试」了。我们通过测试集(Test Dataset)来做最终的 评估,来看学习效果(模型效果)好不好。

通过测试集的评估,我们会得到一些最终的评估指标,例如: 准确率、精确率、召回率、F1等。

划分数据集
• 对于小规模样本集(几万量级),常用的划分比例: • 训练集:验证集:测试集=6:2:2 • 训练集:测试集==8:2、7:3 • 对于大规模样本集(百万级以上),只要验证集和测试集的数量足够即可。 • 例如有 100w 条数据,那么留 1w 验证集,1w 测试集即可。 • 1000w 的数据,同样留 1w 验证集和 1w 测试集。 • 超参数越少,或者超参数很容易调整,那么可以减少验证集的比例,更多的分配给训练集。

 过拟合:将训练样本自身的一些特点当作所 有样本潜在的泛化特点。  表现:在训练集上表现很好,在测试集上表 现不好。  过拟合的原因:  训练数据太少(比如只有几百组)  模型的复杂度太高(比如隐藏层层数设置的过多,神 经元的数量设置的过大)  数据不纯

 为了选择效果最佳的模型,防止过拟合 的问题,通常可以采取的方法有:

 - 移除特征,降低模型的复杂度:减少神经元的个数, 减少隐藏层的层数 

- 训练集增加更多的数据 

- 重新清洗数据 ◦ - 数据增强 ◦ - 正则化 

早停

 欠 拟 合 : 还 没 训 练 好 。

 1. 欠 拟 合 的 原 因 :

 1. 数 据 未 做 归 一 化 处 理

 2 . 神 经 网 络 拟 合 能 力 不 足

 3 . 数 据 的 特 征 项 不 够

 2 . 解 决 方 法 :

 1. 寻 找 最 优 的 权 重 初 始 化 方 案

 2 . 增 加 网 络 层 数 、 e p o c h

 3 . 使 用 适 当 的 激 活 函 数 、 优 化 器 和 学 习 率

 4 . 减 少 正 则 化 参 数

 5 . 增 加 特 征

监督学习与非监督学习
如果数据集中样本点只包含了模型 的输入??,那么就需要采用非监督 学习的算法。

如果这些样本点以〈??,??〉这样的输入-输 出二元组的形式出现(有数据标签), 那么就可以采用监督学习的算法。

模型与最优化算法的选择,很大程度上 取决于能得到什么样的数据。

监督学习
在监督学习中,我们根据训练集 ?? ?? , ?? ?? ??=1 ?? 中的观测 样本点来优化模型?? ⋅ ,使得给定测试样例??′作为模型输 入,其输出?? ෝ尽可能接近正确输出??′ 。 ?? ෝ = ?? x

回归问题的输出是连续值

分类问题的输出是离散值

监督学习—回归

 第二节  监督学习

监督学习基础:

监督学习与非监督学习的区别基于数据集。监督学习的数据集包含输入和输出对,即标签数据,使得模型可以通过训练学习输入与输出之间的关系。
在监督学习中,模型通过优化算法调整,以使得预测输出尽可能接近真实输出。
回归和分类:

回归问题涉及连续值的预测,如利用广告投放量、网站流量等因素来预测收益。
分类问题的输出是离散值,如将猫和其他动物区分开。
回归问题在生活中非常常见,其最简单的形式是一个连续函数的拟合。
• 一个购物网站想要计算出其在某个时期的预期收益,研究人员会将相关因素如广告投放量、网站流量、优惠力度等纳入自变量,根据现有数据拟合函数,得到在未来某一时刻的预测值。
• 回归问题中通常使用均方损失函数来作为度量模型效果的指标,最简单的求解例子是最小二乘法。
 
损失函数和评估指标:

均方误差(MSE)是回归问题中常用的损失函数,用于衡量预测值与真实值之间的差异。
分类问题的评估指标包括准确率、精确率和召回率等,这些指标帮助评估模型的表现和准确性。


应用场景:

线性回归可以应用于多种预测场景,如房价(假设我们想要预测某个城市的房价。我们可以收集到该城市过去几年的房价数据,以及一些相关的因素,比如房屋的面积、房龄、所处区域、楼层等。我们可以使用这些数据建立一条最佳拟合直线,从 而对未来的房价进行预测。我们可以通过最小二乘法来估计截距和斜率的值,从而得到一条最佳拟合直线。这条直线可以用来预测未来的房价,也可以用来分析不同因素对房价的
影响)和销售额的预测(假设我们想要预测某家公司未来一年的销售额。我们可以收集到该公司过去几年的销售额数据,以及一些相关的因素,比如广告投入、促销活动、季
节性因素等。我们可以使用这些数据建立一条最佳拟合直线,从而对未来的销售额进行预测)
分类问题广泛应用于如网贷违约预测等领域,关键在于正确识别正负样本。想要预测(检测)的目标是猫,那么在数据集中猫为正样本( Positive ) , 其 他 狗 、 兔 子 、 狮 子 这 些 数 据 为 负 样 本(Negative )。
• 将这只猫预测(分类)为狗、兔子、其他预测结果为错(False);将这只猫预测为猫,预测结果为对(True)。

高级概念和工具:

PR曲线和F1分数提供了评估模型性能的深入视角,特别是在处理不平衡数据集时尤为重要。
mAP(平均精度均值)是目标检测算法中一个关键的性能指标。
把精确率(Precision)和召回率(Recall)之
间的关系用图来表达,就是下面的PR曲线:
平衡点(BEP)P=R
AP(Average Precision):PR曲线下的面积。
通常来说一个越好的分类器,AP值越高
mAP是多个类别AP的平均值。这个mean的意思是对每个类的AP再求
平均,得到的就是mAP的值,mAP的大小一定在[0,1]区间,越大越
好。该指标是目标检测算法中最重要的一个。

————————————————

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值