机器学习-模型评估与选择

最新推荐文章于 2023-05-03 17:08:26 发布

sflotus

最新推荐文章于 2023-05-03 17:08:26 发布

阅读量362

点赞数

分类专栏：机器学习文章标签：机器学习评估检验

本文链接：https://blog.csdn.net/jiang_jinyue/article/details/78289938

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

模型评估与选择

错误率： $E=a/m$
训练误差|经验误差：学习器在训练集上的误差
泛化误差：学习器在新样本上的误差

1.评估方法

- 留出法 ：将两个数据集 $D$ 划分成互斥的集合，其中一个作为训练集 $S$ ，另一个作为测试集 $T$ 。
- 交叉验证法：将数据集 $D$ 划分成k个大小相似的互斥的数据集，每次用k-1个作为训练集，余下的作为测试集；这样获得k组结果，最终返回k组的测试结果的均值。(特别：数据集 $D$ 有m个样本，m=k,得到特殊情况————留一法)
- 自助法：数据集 $D$ 包含m个样本,对其采样获得数据集 $D'$ :每次随机从 $D$ 中挑选一个样本放入 $D'$ 中（有放回），执行m次，就得到了包含m个样本的数据集 $D'$ 。
论证：每一样本一次被获取的概率都为 $\frac{1}{m}$ ,一次不被获取的概率为 $1-\frac{1}{m}$ ，始终不被取到概率为 $(1-\frac{1}{m})^m$ ,取极限得：

lim 0 \to \infty (1 - 1 m) m \to 1 e \approx 0.386

$\lim_{0\to\infty}(1-\frac{1}{m})^m{\rightarrow}\frac{1}{e}\approx0.386$

1.1评价：

留出法与交叉验证：由于保留了一部分数据集作为验证，必然会引入因为训练样本规模不同而导致的估计偏差。
留一法：受样本规模影响小，但计算复杂度太高。
自助法：数据集较小、难以有效划分训练/测试集时有用

2.性能度量

- 均方误差：

E (f : D) = 1 m \sum i = 1 m (f (x i) - y i) 2

$E(f:D)=\frac{1}{m}\sum_{i=1}^m (f(x_i)-y_i)^2$
　　　更一般的：

E(f:D)=∫x∼D(f(x)−y)2p(x)dx $E(f:D)=\int_{x{\sim}D}(f(x)-y)^2p(x)dx$
- 查准率、查全率、F1

P $P$ 查准率(准确率)：预测为真中实际真的概率

T P ( 真 正 例 ) T P ( 真 正 例 ) + F P ( 假 正 例 )

$\frac{TP(真正例)}{TP(真正例)+FP(假正例)}$

R $R$ 查全率(召回率)：所有真的预测到正确为真的概率

T P ( 真 正 例 ) T P ( 真 正 例 ) + F N ( 假 反 例 )

$\frac{TP(真正例)}{TP(真正例)+FN(假反例)}$
查准率与查全率是一对矛盾的度量：好瓜尽量多的选出来，查准率就低了；选出的瓜好瓜多，查全率低了。

- F1度量

1 F 1 = 1 2 \cdot (1 P + 1 R)

$\frac{1}{F_1}=\frac{1}{2}\cdot(\frac{1}{P}+\frac{1}{R})$
　　　一般形式

1Fβ=11+β2⋅(1P+β2R) $\frac{1}{F_\beta}=\frac{1}{1+\beta^2}\cdot(\frac{1}{P}+\frac{\beta^2}{R})$ 其中

β>1 $\beta>1$ 时查全率影响更大，

β<1 $\beta<1$ 时查准率影响更高

- ROC与AUC
ROC:全称“受试者工作特征”。其纵坐标为“真正例率”，简称TPR；横坐标为“假正例率”，简称FPR。

T P R = T P T P + F N

$TPR=\frac{TP}{TP+FN}$ ,

F P R = F P T N + F P

$FPR=\frac{FP}{TN+FP}$
AUC:ROC曲线下的面积.AUC=1,是完美分类器(并不存在)；0.5

3.假设检验

二项检验、t检验、交叉验证t检验、McNemar检验( $\tau_\chi^2$ )、Friedman检验(F)、Nemenyi检验

4.偏差与方差

偏差(bias)：期望输出与真实标记的差别，刻画学习算法本身的拟合能力　　

b i a s 2 (x) = (f ¯ (x) - y) 2

$bias^2(x)=(\overline{f}(x)-y)^2$
方差(var):预测值的变化范围，离散程度，刻画数据波动对学习性能的变化　　

v a r (x) = E D [(f (x; D) - f ¯ (x)) 2]

$var(x)=\mathbb{E}_D\big[(f(x;D)-\overline{f}(x))^2\big]$
噪声：刻画学习问题本身的难度　　

ε 2 = E D [(y D - y) 2]

$\varepsilon^2=\mathbb{E}_D\big[(y_D-y)^2\big]$

于是，
$E (f; D) = b i a s 2 (x) + v a r (x) + ε 2$ $E(f;D)=bias^2(x)+var(x)+\varepsilon^2$
泛化误差可以分解为偏差、方差与噪声之和.解释为泛化性能由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定。
一般来说，偏差和方差是有冲突的，称为偏差-方差窘境。训练不足-拟合能力不够-训练数据波动对学习器影响小-偏差主导；训练加深-拟合能力够-训练数据波动渐渐被学习器学习-方差主导；训练充足-拟合能力很强-训练数据波动对学习器影响很大-过拟合

sflotus

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习-模型评估与选择

模型评估与选择错误率：E=a/mE=a/m 训练误差|经验误差：学习器在训练集上的误差泛化误差：学习器在新样本上的误差评估方法留出法：将两个数据集DD划分成互斥的集合，其中一个作为训练集SS，另一个作为测试集TT。交叉验证法：将数据集DD划分成k个大小相似的互斥的数据集，每次用k-1个作为训练集，余下的作为测试集；这样获得k组结果，最终返回k组的测试结果的均值。(特别：数据集DD有m个样
复制链接

扫一扫