(一) 模型评估与选择

最新推荐文章于 2024-03-19 11:18:48 发布

SherryLiang00

最新推荐文章于 2024-03-19 11:18:48 发布

阅读量277

点赞数

分类专栏：机器学习笔记文章标签：学习记录

机器学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

0 概述

训练误差：在训练集上的误差
泛化误差：在新样本上的误差
目标：得到泛化误差小的学习器
过拟合与欠拟合：把训练样本的特点当作所有样本的特点，泛化性能下降；训练样本的一般性质尚未学习好

1 模型评估

通过测试集上的测试误差作为泛化误差的近似。
如何得到测试集？留出法，k-fold, 自助法

1.1 留出法

将数据集D划分为训练集S和测试集T，S与T互斥
划分要尽量保持数据分布的一致性 分层采样 拓展：样本有偏差的情况
优缺点：单次使用留出法得到的结果往往不够稳定。常采用多次随机划分，重复评估后取平均值；若S较大，则可能更接近D，易过拟合，若T较大，则结果可能不够准确。通常取2/3-4/5用于训练。

1.2 交叉验证法

k-fold cross validation
评估的结果是k折交叉验证结果的均值
为减少因样本划分不同引入的差别，k折交叉验证通常随机使用不同的划分重复p次，此时最终的评估结果是p次结果的均值 进行了pk次训练

1.3 自助法

包含m个样本的数据集D，每次有放回的抽样，重复m次，得到D’
样本不被采到的概率为 $\left(1-\frac{1}{m}\right)^{m}$ , 取极限得 $\lim _{m \mapsto \infty}\left(1-\frac{1}{m}\right)^{m} \mapsto \frac{1}{e} \approx0.368$
D’为训练集，D\D’为测试集
优缺点：数据集较小，难以有效划分时有用；可以产生多个不同的训练集 拓展：集成学习bagging。但改变了初始数据集的分布，会引入估计偏差。

2 调参

后续根据实际应用再说明

3 性能度量

测试集上如何度量模型性能？（评价指标）
分类：错误率，精确率，召回率，F1，ROC-AUC，PRC
回归：RMSE平方根误差,MAE平均绝对误差,MSE平均平方误差
聚类：兰德指数，互信息，轮廓系数

3.1 分类

3.1.1 错误率和精度

分类任务中常用：错误率和精度，错误率是分类错误的样本数占总体的比例，精度是分类正确的样本数占总体的比例
错误率：
$D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right)$
精度： $\begin{aligned} \operatorname{acc}(f ; D) &=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right)=y_{i}\right) \\ &=1-E(f ; D) \end{aligned}$

准确率评价指标没有对不同类别进行区分，即其平等对待每个类别。但是这种评价有时是不够的，比如有时要看类别0与类别1下分类错误的各自个数，因为不同类别下分类错误的代价不同，即对不同类别的偏向不同，例如在病患诊断中，诊断患有癌症实际上却未患癌症（False Positive）与诊断未患有癌症的实际上却患有癌症（False Negative）的这两种情况的重要性不一样。另一个原因是，可能数据分布不平衡，即有的类别下的样本过多，有的类别下的样本个数过少，两类个数相差较大。这样，样本占大部分的类别主导了准确率的计算。此时我们应选择其他指标作为评价标准。

3.1.2 精确率, 召回率，F1

分类结果的混淆矩阵：
精确率P （percision）与召回率R (recall) $\begin{aligned} P &=\frac{T P}{T P+F P} \\ R &=\frac{T P}{T P+F N} \end{aligned}$
精确率（查准率）：预测结果为正的正确率
召回率（查全率）：在实际正样本中，分类器能预测出多少
精确率与召回率通常是矛盾的。例如：为了使R较大，将全部样本预测为正，此时FN=0，R=1；但是精确率低。
P-R曲线
F1度量： $\frac{1}{F 1}=\frac{1}{2} \cdot\left(\frac{1}{P}+\frac{1}{R}\right)$
是P与R的调和平均。更一般的，有加权平均： $\frac{1}{F_{\beta}}=\frac{1}{1+\beta^{2}} \cdot\left(\frac{1}{P}+\frac{\beta^{2}}{R}\right)$
其中 $\beta>1$ 时R有更大影响， $\beta<1$ 时P有更大影响。

3.1.3 ROC与AUC

ROC以TPR为纵轴（recall），FPR为横轴（负例中判断为正的比例） $\begin{aligned} \mathrm{TPR} &=\frac{T P}{T P+F N} \\ \mathrm{FPR} &=\frac{F P}{T N+F P} \end{aligned}$
对角线：随机模型
优点：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变（PR曲线变化大），因此不均衡样本通常使用AUC作为评价分类器的标准。
AUC：ROC曲线下的面积。The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example. AUC值越大，当前分类算法越有可能将正样本排在负样本前面，从而能够更好地分类。

3.1.4 适用情景实例

准确率/错误率/精度：不同的分类是同等地位的
精确率P：“宁放过一万，不错拿一个”。预测为正但真实为负(FP)的成本很高，因此非常看重预测正样本预测的准确度。比如在银行对用户违约与否进行预测/嫌疑人定罪
召回率R：“宁错拿一万，不放过一个” 。真实值为正，而未被成功预测为正(FN)的成本很高，因此非常看重真实为正样本被正确预测的比例。比如在流行病的案例中，如果真实为正而未被正确预测，即本身患病而被判断为不患病，那么对于社会公共安全造成极大危害，后果严重，所以这里会很看重召回率。
AUC：样本不平衡

3.2 回归

MAE(Mean Absolute Error) 平均绝对误差： $MAE=\frac{1}{n} \sum_{i=1}^{n}\left|f_{i}-y_{i}\right|$
MSE(Mean Square Error) 平均平方差/均方误差： $E=\frac{1}{n} \sum_{i=1}^{n}\left(f_{i}-y_{i}\right)^{2}$
RMSE(Root Mean Square Error) 方均根差 : $E=\sqrt{M S E}$
对异常点非常敏感
$R^2$ : $S_{r e s}=\sum\left(y_{i}-f_{i}\right)^{2}$ $S_{t o t}=\sum\left(y_{i}-\overline{y}\right)^{2}$ $R^{2}=1-\frac{S S_{r e s}}{S S_{t o t}}=1-\frac{\sum\left(y_{i}-f_{i}\right)^{2}}{\sum\left(y_{i}-\overline{y}\right)^{2}}$ 反映了在因变量y的变化中被估计的回归方程所解释的比例。R平方越接近1,表明回归平方和占总平方和的比例越大,回归线与各观测点越接近,用x的变化来解释y值变差的部分就越多,回归的拟合程度就越好。但同样是基于误差的均值对进行评估的， $R^2$ 对异常点（outliers）较敏感。另外， $R^2$ 的大小并不能用来比较模型的好坏，例如模型A的训练集包含了模型B的训练集，此时A的 $R^2$ 总是不小于B的 $R^2$
Adjusted $R^2$ : $\begin{aligned} \text { adjusted } R^{2} &=1-\frac{\mathrm{MS}_{\text { error }}}{\mathrm{MS}_{\text {total}}} \\ &=1-\frac{\mathrm{SS}_{\text { error }} /(n-p-1)}{\text { SS }_{\text { totar }} /(n-1)} \end{aligned}$ n为样本数量，p为特征维度。消除了样本数量和特征数量的影响.
其他指标：Mallow’s $C_p$ , AIC, BIC

4 参考阅读

SherryLiang00

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
(一) 模型评估与选择

0 概述训练误差：在训练集上的误差泛化误差：在新样本上的误差目标：得到泛化误差小的学习器过拟合与欠拟合：把训练样本的特点当作所有样本的特点，泛化性能下降；训练样本的一般性质尚未学习好1 模型评估通过测试集上的测试误差作为泛化误差的近似。如何得到测试集？留出法，k-fold, 自助法1.1 留出法将数据集D划分为训练集S和测试集T，S与T互斥划分要尽量保持数据分布的一致...
复制链接

扫一扫

专栏目录