模型评估与模型参数选择

最新推荐文章于 2024-09-26 19:03:09 发布

liu_joe

最新推荐文章于 2024-09-26 19:03:09 发布

阅读量389

点赞数 5

文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/liu_joe/article/details/142318627

版权

若对于给定的输入??，若某个模型的输出??ො = ?? ?? 偏离真实目标值??，那么就说明模型存在误差； • ??ො偏离??的程度可以用关于??ො和??某个函数?? ??, ??ො 来表示，作为误差的度量标准：这样的函数 ??ሺ??, ??ොሻ 称为损失函数

在某种损失函数度量下，训练集上的平均误差被称为训练误差，测试集上的误差称为泛化误差。 • 由于我们训练得到一个模型最终的目的是为了在未知的数据上得到尽可能准确的结果，因此泛化误差是衡量一个模型泛化能力的重要标准。

模型评估与模型参数选择
误差：预测输出??ො与真实输出??之间的差异；

• 经验误差、训练误差：在训练集上的误差；

• 泛化误差：在新样本上的误差。

• 泛化误差越小越好，经验误差不一定越小越好，可能导致过拟合。

模型评估与模型参数选择

3种数据集之间的关系： •训练集相当于上课学知识 •验证集相当于课后的的练习题，用来纠正和强化学到的知识

•测试集相当于期末考试，用来最终评估学习效果

数据集：训练集、验证集、测试集

• 当我们的模型训练好之后，我们并不知道他的表现如何。这个时候就可以使用验证集（Validation Dataset）来看看模型在新数据（验证集和测试集是不同的数据）上的表现如何。同时通过调整超参数，让模型处于最好的状态。

验证集
• 当我们的模型训练好之后，我们并不知道他的表现如何。这个时候就可以使用验证集（Validation Dataset）来看看模型在新数据（验证集和测试集是不同的数据）上的表现如何。同时通过调整超参数，让模型处于最好的状态。

• 验证集有2个主要的作用： • 评估模型效果，为了调整超参数而服务 • 调整超参数，使得模型在验证集上的效果最好 • 说明： • 验证集不像训练集和测试集，它是非必需的。如果不需要调整超参数，就可以不使用验证集，直接用测试集来评估效果。 • 验证集评估出来的效果并非模型的最终效果，主要是用来调整超参数的，模型最终效果以测试集的评估结果为准。

测试集
• 当我们调好超参数后，就要开始「最终考试」了。我们通过测试集（Test Dataset）来做最终的评估，来看学习效果（模型效果）好不好。

通过测试集的评估，我们会得到一些最终的评估指标，例如：准确率、精确率、召回率、F1等。

划分数据集
• 对于小规模样本集（几万量级），常用的划分比例： • 训练集：验证集：测试集=6：2：2 • 训练集：测试集==8：2、7：3 • 对于大规模样本集（百万级以上），只要验证集和测试集的数量足够即可。 • 例如有 100w 条数据，那么留 1w 验证集，1w 测试集即可。 • 1000w 的数据，同样留 1w 验证集和 1w 测试集。 • 超参数越少，或者超参数很容易调整，那么可以减少验证集的比例，更多的分配给训练集。

 过拟合：将训练样本自身的一些特点当作所有样本潜在的泛化特点。  表现：在训练集上表现很好，在测试集上表现不好。  过拟合的原因：  训练数据太少（比如只有几百组）  模型的复杂度太高（比如隐藏层层数设置的过多，神经元的数量设置的过大）  数据不纯

 为了选择效果最佳的模型，防止过拟合的问题，通常可以采取的方法有：

- 移除特征，降低模型的复杂度：减少神经元的个数，减少隐藏层的层数

- 训练集增加更多的数据

- 重新清洗数据 ◦ - 数据增强 ◦ - 正则化

早停

 欠拟合：还没训练好。

 1. 欠拟合的原因：

 1. 数据未做归一化处理

 2 . 神经网络拟合能力不足

 3 . 数据的特征项不够

 2 . 解决方法：

 1. 寻找最优的权重初始化方案

 2 . 增加网络层数、 e p o c h

 3 . 使用适当的激活函数、优化器和学习率

 4 . 减少正则化参数

 5 . 增加特征

监督学习与非监督学习
如果数据集中样本点只包含了模型的输入??，那么就需要采用非监督学习的算法。

如果这些样本点以〈??,??〉这样的输入-输出二元组的形式出现（有数据标签），那么就可以采用监督学习的算法。

模型与最优化算法的选择，很大程度上取决于能得到什么样的数据。

监督学习
在监督学习中，我们根据训练集 ?? ?? , ?? ?? ??=1 ?? 中的观测样本点来优化模型?? ⋅ ，使得给定测试样例??′作为模型输入，其输出?? ෝ尽可能接近正确输出??′ 。 ?? ෝ = ?? x

回归问题的输出是连续值

分类问题的输出是离散值

监督学习—回归

第二节监督学习

监督学习基础：

监督学习与非监督学习的区别基于数据集。监督学习的数据集包含输入和输出对，即标签数据，使得模型可以通过训练学习输入与输出之间的关系。
在监督学习中，模型通过优化算法调整，以使得预测输出尽可能接近真实输出。
回归和分类：

回归问题涉及连续值的预测，如利用广告投放量、网站流量等因素来预测收益。
分类问题的输出是离散值，如将猫和其他动物区分开。
回归问题在生活中非常常见，其最简单的形式是一个连续函数的拟合。
• 一个购物网站想要计算出其在某个时期的预期收益，研究人员会将相关因素如广告投放量、网站流量、优惠力度等纳入自变量，根据现有数据拟合函数，得到在未来某一时刻的预测值。
• 回归问题中通常使用均方损失函数来作为度量模型效果的指标，最简单的求解例子是最小二乘法。

损失函数和评估指标：

均方误差（MSE）是回归问题中常用的损失函数，用于衡量预测值与真实值之间的差异。
分类问题的评估指标包括准确率、精确率和召回率等，这些指标帮助评估模型的表现和准确性。

应用场景：

线性回归可以应用于多种预测场景，如房价（假设我们想要预测某个城市的房价。我们可以收集到该城市过去几年的房价数据，以及一些相关的因素，比如房屋的面积、房龄、所处区域、楼层等。我们可以使用这些数据建立一条最佳拟合直线，从而对未来的房价进行预测。我们可以通过最小二乘法来估计截距和斜率的值，从而得到一条最佳拟合直线。这条直线可以用来预测未来的房价，也可以用来分析不同因素对房价的
影响）和销售额的预测（假设我们想要预测某家公司未来一年的销售额。我们可以收集到该公司过去几年的销售额数据，以及一些相关的因素，比如广告投入、促销活动、季
节性因素等。我们可以使用这些数据建立一条最佳拟合直线，从而对未来的销售额进行预测）
分类问题广泛应用于如网贷违约预测等领域，关键在于正确识别正负样本。想要预测（检测）的目标是猫，那么在数据集中猫为正样本（ Positive ），其他狗、兔子、狮子这些数据为负样本（Negative ）。
• 将这只猫预测（分类）为狗、兔子、其他预测结果为错（False）；将这只猫预测为猫，预测结果为对（True）。

高级概念和工具：

PR曲线和F1分数提供了评估模型性能的深入视角，特别是在处理不平衡数据集时尤为重要。
mAP（平均精度均值）是目标检测算法中一个关键的性能指标。
把精确率（Precision）和召回率（Recall）之
间的关系用图来表达，就是下面的PR曲线：
平衡点（BEP）P=R
AP（Average Precision）：PR曲线下的面积。
通常来说一个越好的分类器，AP值越高
mAP是多个类别AP的平均值。这个mean的意思是对每个类的AP再求
平均，得到的就是mAP的值，mAP的大小一定在[0,1]区间，越大越
好。该指标是目标检测算法中最重要的一个。

————————————————