打卡--模型评估与选择(评价指标理论)

一、精度、过拟合、欠拟合

     1.1   精度

       精度是衡量模型预测准确性的指标。通过将模型的预测结果与实际结果进行比较来计算。

       常见的精度计算方式包括准确率、错误率等。

      1.2 过拟合

       过拟合指模型在训练数据上表现出色,但在新的、未见过的数据上表现不佳。这通常是因为           模型过度适应了训练数据中的噪声和特定模式,导致模型变得过于复杂,失去了泛化能力。

       例如,一个神经网络在训练时,如果层数过多或参数过多,可能会记住训练数据中的每一个           细节,包括噪声,从而在新数据上表现很差。

       1.3欠拟合

       欠拟合则是模型在训练数据和新数据上的表现都不好,意味着模型未能充分学习到数据中的           模式和规律。

       比如,使用一个简单的线性模型来处理复杂的非线性数据,就可能导致欠拟合。

二、比较三种划分数据集的方法:留出法、交叉验证法、自助法

2.1 评估方法

这里主要指的是对学习器的泛化误差的评估。
通常我们用一个测试集(testing set)来测试学习器对新样本的分类能力,并以测试集上的测试误差作为该学习器泛化误差的近似。
通常我们假设测试集也是从样本真实分布中独立同分布采样而得,且测试集应尽量与训练集互斥,否则会使我们获得虚低的泛化误差。

2.1.1 留出法 (hold-out)
  留出法步骤

1.划分方式:保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影                         响。
      简单来讲,就是训练集和测试集的类别数目以及类别比例要一致
      具体而言,以分类任务为例,我们需要保证训练集和测试集中样本类别的比例相似(类别要有       且比例要一样,比如做样本猫狗5:4,那么训练集和测试集中也要有猫和狗且比例都均要接近         5:4)。从采样的角度看,这种保持样本类别比例的采样方式称为分层采样(stratifiesampling)。       若训练集和测试集的样本类别比例差别太大,则误差估计会由于它们的数据分布差异而产生偏       差。
2.划分次数:采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
     简单理解,在第1条划分方式条件下,多做几次实验,求取平均值作为评估结果
     具体而言,在第1条的前提下,我们仍然有多种划分方式将数据集划分为不同的训练集/测集,         而不同的训练集/测试集会使得训练的模型评估结果有所不同。可见,单次留出法的评估结果不       够稳定可靠。故采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。     进行100次的随机划分,每次产生一个训练集/测试集用于评估,100次后就得到100个结果,      而留出法返回的就是这100个结果的平均。
3.划分数量:将大约2/3至4/5的样本用于训练,剩余样本用于测试。

留出法在划分训练集和测试集数量时的一个窘境:若训练集过小,则评估结果偏差大;若测试集过小,则评估结果方差大。
                                                                             (一般而言,测试集至少要有30个样本)

2.1.2 交叉验证法 (cross validation)
交叉验证法步骤

1.  通过分层采样的方法将数据集D划分为k个大小相似的互斥子集(注意分层采样之后的每个子集       数据分布具有一致性)。
2.  每次用k−1个子集的并集作为训练集,余下的那个子集作为测试集。显然,这样就可以获得k 组       不同的训练集+测试集组合,从而进行k 次训练和测试,最终返回的是这k 个测试结果的均值。
3.  同留出法,将数据集D 划分为k 组有多种不同的方式。为减少由于数据集划分的不同而引入的         差别,k 折交叉验证通常要随机使用不同的划分重复p次,最终的结果是这p次k 折交叉验证结         果的平均值(常见的为10次10折交叉验证)。

k折:数据集/k=每个子集数据数(如10折,数据集1000,则1000/10=100)

设1000个样本,分10份(子集),各100个
(与留出法区别)留出法分成两个,交差验证法分成十个

交叉验证法评估结果的稳定性保真性(准确率)在很大程度上取决于k 的取值,通常把交叉验证法称为“k 折交叉验证”(k-fold cross validation)。最常用的取值为10(还有5、20等),此时称为10折交叉验证。

交叉验证法的特例:留一法
假定数据集D中包含m个样本,若令k=m,得到了交叉验证法的一个特例:留一法
很显然,它的划分不受随机划分的影响,因为m个样本只能划分出m个数据子集(每一个样本就是一个子集)
由于留一法的训练集只比整个数据集少一个样本,故往往认为留一法的评估结果比较准缺
但是其缺陷也十分棘手:一方面,当样本规模m很大时,计算开销十分恐怖;另一方面,其结果未必比其它评估方法准确。

2.1.3 自助法 (bootstrap)

自助法适合小数据集(一般20个以下)
自助法亦称亦称“可放回采样”、“可重复采样”
自助法既能减少样本规模不同带来的影响(解决了部分作为测试集导致的估计偏差)
           又能高效地进行实验估计(解决了留一法计算复杂度太高的问题)
自助法直接以自助采样法为基础,以有放回采样的方式采样出训练集D'
原数据集D是一个包含m个样本的数据集,通过自助法有放回的重复抽样m次,每次抽取1个数据,放到D'中,D'中也有m个样本,同时,原来的数据集D中不被D'包含的数据作为验证集。(有多少个样本就抽多少次,保证D‘和D样本数目相同)
通过自助采样,D中大约有36.8%的样本未出现在D'中于是我们用D'做训练集,D中除去D'的部分做测试集
这个36.8%是怎么得到的呢?
    每个样本被选中概率1/m
    每个样本未被选中概率(1-1/m)
    放回,重复m次,故:
    于是,我们对m取极限 

2.1.4 “调参”与最终模型
首先,“调参”的含义就是确定模型参数的过程

算法的参数:一般由人工设定,亦称“超参数”
                      比如在训练过程中发现某个模型性能好,最后使其占的权重大一些
                             在训练过程中发现某个模型性能相对较差,最后使其占的权重就小一些
模型的参数:一般由学习确定
                      WX=Y(其中,W是模型;X是样本;Y是预测的标签)
                      样本经过模型就是样本乘以模型的参数;W由学习来确定

调参过程相似:先产生若干模型,然后基于某种评估方法进行选择
参数调得好不好,往往对最终模型性能有关键影响
算法参数选定后,要“训练集+验证集”重新训练最终模型

三、查准率、查全率、F1 值

  1. 查准率(Precision)
    • 计算:查准率 = 真正例 / (真正例 + 假正例)
    • 意义:表示在所有被预测为正例的样本中,真正的正例所占的比例。
    • 例如,在一个疾病预测模型中,预测为患病的 100 人中,实际患病的有 80 人,那么查准率就是 80%。
  2. 查全率(Recall)
    • 计算:查全率 = 真正例 / (真正例 + 假反例)
    • 意义:表示在所有实际为正例的样本中,被正确预测为正例的比例。
    • 例如,实际患病的 150 人中,模型预测为患病的有 120 人,那么查全率就是 80%。
  3. F1 值
    • 计算:F1 = 2 × (查准率 × 查全率) / (查准率 + 查全率)
    • 意义:综合考虑查准率和查全率,是它们的调和平均值。
    • 当查准率和查全率都很高时,F1 值才会高。

四、ROC 曲线与 AUC

  1. ROC 曲线(Receiver Operating Characteristic Curve)
    • 原理:通过不断改变分类阈值,计算真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate,FPR),绘制曲线。
    • 意义:ROC 曲线越靠近左上角,模型性能越好。
  2. AUC(Area Under the Curve)
    • 计算:ROC 曲线下的面积。
    • 意义:AUC 值越大,模型的分类性能越好。AUC = 1 时,模型完美分类;AUC = 0.5 时,模型随机分类。

五、代价曲线

  1. 概念
    代价曲线考虑了不同错误分类所造成的不同代价。
  2. 应用
    在实际应用中,根据不同错误分类的代价来权衡模型的性能,选择最优的模型或决策阈值。
  • 11
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值