机器学习西瓜书学习笔记（二）— 模型评估与选择

最新推荐文章于 2023-02-12 16:47:20 发布

luminous_y

最新推荐文章于 2023-02-12 16:47:20 发布

阅读量835

点赞数 1

分类专栏： ML

本文链接：https://blog.csdn.net/qq_43528771/article/details/99708629

版权

ML 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

经验误差与过拟合

【错误率】E = $\frac{a}{m}$ ( m: 样本总数 - a: 分类错误的样本数 )
【误差】学习器的实际预测输出与样本的真是输出之间的差异
【训练误差 / 经验误差】学习器在训练集上的误差
【泛化误差】学习器在新样本上的误差
【欠拟合】【过拟合】（ $\because$ P != NP $\therefore$ 过拟合不可避免）

评估方法（实验估计）

1. 留出法 hold-out / 验证集法 validation set approach
直接将数据集D划分成两个互斥的集合S（训练集）和T（测试集）
* 要保持数据分布的一致性（分层采样）
* 在给定S和T的比例后，不同划分方法结果不同，返回n次随机划分结果的平均值
* S集的比例约 $\frac23$ ~ $\frac45$
* S大T小时，评估结果方差较大；S小T大时，评估结果偏差较大
* 优：简单，易于实现；缺：每次随机产生的MSE变化大；且只用到了部分数据

# hold out / validation set approach #

library(ISLR) 
# the package for the dataset Auto

set.seed(1)
train=sample(392,196) 
# select a random training set of 196 observations out of the original 392 observations. 

attach(Auto)
# linear regression
lm.fit=lm(mpg~horsepower,data=Auto,subset=train) 
mean((mpg-predict(lm.fit,Auto))[-train]^2) 
# calculate MSE
# the -train index selects only the observations that are not in the training set

# quadratic regression
lm.fit2=lm(mpg~poly(horsepower,2),data=Auto,subset=train)
mean((mpg-predict(lm.fit2,Auto))[-train]^2)

# cubic regression
lm.fit3=lm(mpg~poly(horsepower,3),data=Auto,subset=train)
mean((mpg-predict(lm.fit3,Auto))[-train]^2)

2. 交叉验证法 cross validation (CV)（p次k折交叉验证）
先将数据集D划分为k个大小相似的互斥子集D₁, D₂, …, D_k, 然后每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集，从而进行k次测试
* 要保持每个子集数据分布的一致性（分层采样）
* k通常为5、10或20
* 在给定k值后，不同划分方法结果不同，返回p次随机划分结果的平均值

# k-fold cross validation #

library(boot)
# the package for the function cv.glm

set.seed(1)
cv.error.10=rep(0,5)
for(i in 1:5){
  glm.fit=glm(mpg~poly(horsepower,i),data=Auto)
  cv.error.10[i]=cv.glm(Auto,glm.fit,K =10)$delta[1] 
}
# k=10 for k-fold CV
cv.error.10

-留一法 LOOCV（m次m折交叉验证）
m个样本用唯一的方式划分为m个子集，每个子集1个样本
* 优：评估结果较为准确（偏差很小）；但计算开销大，且方差比 k - fold CV 大

# LOOCV #

library(boot)

# linear regression
glm.fit=glm(mpg~horsepower,data=Auto) 
cv.err=cv.glm(Auto,glm.fit)
cv.err$delta

# the errors of linear and higher-order polynomial regression
cv.error=rep(0,5)
for(i in 1:5){
  glm.fit=glm(mpg~poly(horsepower,i),data=Auto)
  cv.error[i]=cv.glm(Auto,glm.fit)$delta[1]
}
cv.error

3. 自助法 bootstrapping
【自助采样法】给定包含m个样本的数据集D，每次随机从D 中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到。重复执行m 次，就可以得到包含m个样本的数据集D’。可以得知在m次采样中，样本始终不被采到的概率取极限为： $\lim_{m\to\infty}{(1-\frac1m)^m}\to\frac1e\approx0.368$ 。通过自助采样，初始样本集D中大约有36.8%的样本没有出现在D’中，于是可以将D’作为训练集，D\D’作为测试集。测试结果称为【外包估计(out-of bag estimate)】
* 适用于测试集小，难以有效划分测试集和训练集的情况（特别是集成学习）
* 但改变了初始数据集的分布，会引入估计偏差（数据量足够时，不常用该方法）

# bootstrapping #
library(boot)

# Estimating the Accuracy of a Statistic of Interest 
# create a function that computes the statistic of interest
alpha.fn=function(data,index){
  X=data$X[index]
  Y=data$Y[index]
  return((var(Y)-cov(X,Y))/(var(X)+var(Y)-2*cov(X,Y)))
}
# use the boot() function to perform the bootstrap by repeatedly sampling observations from the dataset with replacement
boot(Portfolio,alpha.fn,R=1000)

# Estimating the Accuracy of a Linear Regression Model 
boot.fn=function(data,index)
  return(coef(lm(mpg~horsepower,data=data,subset=index)))
boot.fn(Auto,1:392)
boot(Auto,boot.fn,1000)

4. 调参 parameter tuning
ML中的参数类型：①算法的参数(超参数)，数目在10以内，由人工设定多个参数候选值后产生模型 ②模型的参数，数目很多，通过学习来产生多个候选模型(深度学习)

性能度量（评价标准）

回归任务：

均方误差MSE $\qquad E(f;D)=\frac1m\sum_{i=1}^{m}(f(\bm{x_i})-y_i)^2 \quad or \quad E(f;\mathcal{D})=\int_{x \sim \mathcal{D}}(f(\bm{x})-y)^2 \mathcal{p}(\bm{x})d\bm{x}$

分类任务：
性能度量

错误率 (error) $E(f;D)=\frac1m \sum_{i=1}^{m}\mathbb{I}(f(\bm{x_i}) \ne y_i)\quad or \quad E(f;\mathcal{D})=\int_{x \sim \mathcal{D}}\mathbb{I}(f(\bm{x})\ne y) \mathcal{p}(\bm{x})d\bm{x}$
精度 (accuracy) $acc(f;D)=\frac1m \sum_{i=1}^{m}\mathbb{I}(f(\bm{x_i}) = y_i)=1-E(f;D) \quad or \quad E(f;\mathcal{D})=\int_{x \sim \mathcal{D}}\mathbb{I}(f(\bm{x})= y) \mathcal{p}(\bm{x})d\bm{x}=1-E(f;\mathcal{D})$
二分类问题分类结果的混淆矩阵
查准率/准确率 (presicion) $P=\frac{TP}{TP+FP}$
查全率/召回率 (recall) $R=\frac{TP}{TP+FN}$
真正例率(true positive rate) $\quad(TPR=R)$ $TPR=\frac{TP}{TP+FN}$
假正例率(false positive rate) $FPR=\frac{FP}{TN+FP}$
F₁ 度量 (查准率和查全率的调和平均) $F_1 = \frac{\small2·P·R}{\small P+R}=\frac{\small2·TP}{\small样例总数+TP-TN}\qquad[\frac1{F_1}=\frac12·(\frac1P+\frac1R)]$
F $\tiny\beta$ 度量 (查准率和查全率的加权调和平均) $F_\beta= \frac{\small(1+\beta^2)·P·R}{\small \beta^2·P+R}\qquad[\frac1{F_\beta}=\frac1{1+{\beta}^2}·(\frac1P+\frac{\beta^2}R)]$

在n个二分类混淆矩阵上综合考察查准率和查全率

宏查准率 & 宏查全率 & 宏F₁ ：先在各混淆矩阵上计算P_i和R_i，再计算平均值 $macroP=\frac1n\sum_{i=1}^nP_i \quad \& \quad macroR=\frac1n\sum_{i=1}^nR_i \quad \& \quad macroF_1 = \frac{\small2·macroP·macroR}{\small macroP+macroR}$
微查准率 & 微查全率 & 宏F₁ ：先将各混淆矩阵的对应元素平均，再基于这些平均值计算 $microP=\frac{\overline{TP}}{\overline{TP}+\overline{FP}} \quad \& \quad microR=\frac{\overline{TP}}{\overline{TP}+\overline{FN}} \quad \& \quad microF_1 = \frac{\small2·microP·microR}{\small microP+microR}$

性能曲线

P-R曲线：一般而言，查准率和查全率反向变化
- BEP平衡点 (break-even point)：查准率 = 查全率
ROC曲线 (受试者工作特征 receiver operating characteristic)
- 分类阈值 (threshold) / 截断点 (cut point)：将样本分为两部分，前一部分判作正例，后一部分判作反例 (看重查准率，截断点靠前；看重查全率，截断点靠后)
- AUC (area under ROC curve) ：ROC曲线下方的面积 - 样本预测的排序质量 $\quad AUC\approx \frac12\sum_{i=1}^{m-1}(x_{i+1}-x_i)·(y_i+y_{i+1})$
- 排序损失：ROC曲线上方的面积（ $AUC=1-l_{rank}$ ） $l_{rank}=\frac1{m^+m^-}\sum_{\bm{x^+}\in D^+}\sum_{\bm{x^-}\in D^-}(\mathbb{I(f(\bm{x^+}})<f(\bm{x^-}))+\frac12(\mathbb{I(f(\bm{x^+}})=f(\bm{x^-}))$

非均等代价 (unequal cost - 不同类型错误造成不同损失) 情况下的性能度量

代价矩阵 (cost matrix)
cost_ij : 将第 i 类样本预测为第 j 类样本的代价（一般 cost_ii = 0）
重要的是代价比值而不是绝对值
代价敏感错误率 (cost-sensitive error rate) (二分类为例)
$E(f;D;cost)=\frac1m(\sum_{\bm{x_i}\in D^+}\mathbb{I}(f(\bm{x_i})\ne y_i)\times cost_{01}+\sum_{\bm{x_i}\in D^-}\mathbb{I}(f(\bm{x_i})\ne y_i)\times cost_{10})$
代价曲线 (cost curve)
- 横轴：正例概率代价 (其中 $p$ 为样例为正例的概率) $P(+)cost=\frac{p\times cost_{01}}{p\times cost_{01}+(1-p)\times cost_{10}}$
- 纵轴：归一化代价 $cost_{norm}=\frac{FNR\times p\times cost_{01}+FPR\times (1-p)\times cost_{10}}{p\times cost_{01}+(1-p)\times cost_{10}}$ 在非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，而代价曲线可以
  ROC曲线上的每一点对应了代价平面上的一条线段，由此计算期望总体代价

比较检验

假设检验 - 检验单个算法

二项检验：一次留出法估计 - 泛化错误率为 $\epsilon$ 的学习器被测得测试错误率为 $\hat\epsilon$ 的概率：
$P(\epsilon;\hat\epsilon)= \begin{pmatrix} {m} \\ { \hat\epsilon \times m} \end{pmatrix} \epsilon^{\hat\epsilon \times m(1-\epsilon)^{m-\hat\epsilon \times m}} \sim Binomial(m,\epsilon)$ 临界值 $\bar\epsilon=\max \epsilon \quad \text{s.t.} \quad \sum_{i=\epsilon_0 \times m +1}^{m}\begin{pmatrix}{m}\\{i}\end{pmatrix}\epsilon^i(1-\epsilon)^{m-i} < \alpha$ 检验过程略
t 检验：多次重复留出法 / 交叉验证法 - 得到 k 个测试错误率
${\mu = \frac1k\sum_{i=1}^k\hat\epsilon_i }$ ${\sigma^2=\frac1{k-1}\sum_{i=1}^k(\hat \epsilon _i-\mu)^2}$ 则 $\tau_t=\frac{\sqrt k(\mu -\epsilon_0)}\sigma \sim t (k-1)$

交叉验证 t 检验 - k 折交叉验证成对 t 检验 (paired t-tests) - 检验两个算法
-假设：学习器A与B性能相同
-前提：测试错误率均为泛化错误率的独立采样（但实际上会有一定重叠，不完全独立）
-先对每对结果求差，计算出差值的均值和方差
$\Delta_i=\epsilon_i^A-\epsilon_i^B\qquad {\mu = \frac1k\sum_{i=1}^k\Delta_i } \qquad{\sigma^2=\frac1{k-1}\sum_{i=1}^k(\Delta_i-\mu)^2}$ $\tau_t =\begin{vmatrix}{\frac{\sqrt{k}\mu}\sigma}\end{vmatrix} \sim t(k-1)$

5 x 2 交叉验证 (5次2折交叉验证)
-在每次 2 折交叉验证之前随机将数据打乱，使得 5 次交叉验证中的数据划分不重复
-为缓解测试错误率的非独立性，改变均值和方差的计算方法
- 第 i 次第 j 折上产生的两对测试错误率的差值
  $\Delta_i^j=\epsilon_i^{jA}-\epsilon_i^{jB} \qquad (i\in\{1,2,3,4,5\},j\in\{1,2\})$
- 均值、方差
  $\mu=\frac12(\Delta_1^1+\Delta_1^2) \qquad \sigma_i^2=(\Delta_i^1-\frac{\Delta_i^1+\Delta_i^2}2)^2+(\Delta_i^2-\frac{\Delta_i^1+\Delta_i^2}2)^2$
- 检验量 $\tau_t =\begin{vmatrix}{\frac{\sqrt{5}\mu}{\sqrt {\sum_{i=1}^5\sigma_i^2}}}\end{vmatrix} \sim t(5)$

McNemar检验 - 留出法检验 - 检验两个算法
-假设：学习器A与B性能相同 - $e_{01} = e_{10}$
-两学习器分类差别列联表 (contingency table)： $e_{00}$ : 算法A、B都正确 / $e_{01}$ : 算法B正确，A错误 / $e_{10}$ : 算法A正确，B错误 / $e_{00}$ : 算法A、B都错误
( $e_{01} + e_{10}$ 通常很小，考虑连续性校正，检验量的分子中有 -1 项 )
$|e_{01} - e_{10}| \sim N \qquad \tau_{\chi^2}=\frac{(|e_{01} - e_{10}|-1)^2}{e_{01} + e_{10}} \sim \chi^2(1)$

Friedman检验和Nemenyi后续检验- 检验多个算法

利用上述检验过程在 N 数据集上分别对 k 个算法进行两两比较
基于算法排序的 Friedman 检验
- 算法比较序值表 $\to$ 平均序值
- $r_i$ : 第 i 个算法的平均序值（不考虑平分序值的情况）
- $r_i$ 的均值、方差
  $\mu = \frac{k+1}{2} \qquad \sigma^2 = \frac{k^2-1}{12N}$
- 原始 $\chi^2$ 检验量 (要求 k 和 N 都较大)
  $\tau_{\chi^2}=\frac{k-1}{k}·\frac1{\sigma^2}\sum_{i = 1}^k(r_i-\mu)^2=\frac{12N}{k(k+1)}(\sum_{i=1}^kr_i^2-\frac{k(k+1)^2}4) \sim \chi^2(k-1)$
- 改进后的F检验量
  $\tau_{F}=\frac{(N-1)\tau_{\chi^2}}{N(k-1)-\tau_{\chi^2}} \sim F(k-1,(k-1)(N-1))$
Nemenyi 后续检验 (post-hoc test) - 进一步区分各算法
- 前提：“所有算法的性能相同”这个假设被拒绝，即算法的性能显著不同
- 平均序值差别的临界值域 ( $q_\alpha$ 值见 P43 表 2.7)
  $CD=q_\alpha \sqrt \frac{k(k+1)}{6N}$
Friedman检验图：若两个算法的横线段有交叠，则没有显著差别，否则有。
如下图，算法A、B无显著差别，但算法A显著优于算法C

偏差和方差

【偏差-方差分解 (decomposition)】对学习算法的期望泛化错误率进行拆解
【偏差-方差窘境 (dilemma)】偏差方差反向变化，训练不足时偏差大方差小 (欠拟合)；训练充足时偏差小方差大 (过拟合)

期望预测 (以回归任务为例)： $\bar f (\bm x)=\mathbb E_D[f(\bm x;D)]$
偏差 (bias)：学习算法的期望预测与真实结果的偏离程度（学习算法本身的拟合能力） $bias^2(\bm x)=(\bar f (\bm x)-y)^2$
方差 (variance)：同样大小的训练集的变动所导致的学习性能的变化（数据扰动所造成的影响） $(\bm x)=\mathbb E_D[(f(\bm x;D)-\bar f (\bm x))^2]$
噪声 (noise)：当前任务上任何学习算法所能达到的期望泛化误差的下界（学习问题本身的难度） $\varepsilon^2=\mathbb E_D[(y_D-y)^2]$
一般假定噪声期望为0，即 $\mathbb E_D[y_D-y]=0$
期望泛化误差 - 分解成偏差、方差、噪声之和 - 数学证明 $E(f;D)=bias^2(\bm x)+var(\bm x)+\varepsilon^2$