模型的效果评判及模型的进一步优化问题

最新推荐文章于 2023-12-27 18:07:31 发布

永远鲜红の幼月

最新推荐文章于 2023-12-27 18:07:31 发布

阅读量763

点赞数

分类专栏：机器学习入门科普文章标签：机器学习

本文链接：https://blog.csdn.net/qq_40482358/article/details/117464243

版权

机器学习入门科普专栏收录该内容

11 篇文章 0 订阅

订阅专栏

模型的效果评判

对于之前无论是逻辑回归还是神经网络的方式得到的hθ(x)中的模型和θ，我们要判断该模型是否足够合适。

区别于感性目测的方法，我们有一个直观的评判标准，即精确度和召回率。

如果不合适，就需要适当的修改模型参数，来重新训练θ。

1.问题引入

我们要对一个01分类问题进行拟合。

对于我们获得的一组数据和一个模型，如果这个数据集中的样本分布不对称。例如，判断癌症的患病情况。

很显然，正常人和癌症病人的差距很大。

假如我们的算法得到的模型，预测误差是1%，看起来似乎问题不大。但如果癌症的发病率只有0.5%的话，这个误差就显的不可接受了。

比如给1000人，我们预测有10个人预测错了（正常人预测成癌症病人），但实际上只有5个人。那么我们预测的癌症患者可能就是15个。那么这很明显和现实差别很大。这个模型是不好的模型。

假如，我们只使用一个永远输出false的模型（ans=0）。那么我们的预测误差甚至会变成0.5%。看起来是不是比1%的误差更好？

当然，上面只是一个简单的例子，来引出下面我们所需要的更加优秀的评判标准。而不是单纯的，误差越低越好。

2.精确度和召回率

我们将模型的预测结果和样本的结果做出比较，然后得出四种情况，即下表：

	样本（1）	样本（0）
预测（1）	真阳性	假阳性
预测（0）	假阴性	真阴性

可以看出来，这四种情况：

预测阳性。样本阳性为真阳性，样本为阴性为假阳性。
预测阴性。样本阳性为假阴性，样本为阴性为真阴性。

基于上述四种情况，我们可以得出两个评判的标准，即精确度和召回率。
$精确度=\frac{真阳性}{预测阳性}=\frac{真阳性}{真阳性+假阳性}=\frac{预测阳性对的}{预测阳性对的+预测阳性错的}$
$召回率=\frac{真阳性}{样本阳性}=\frac{真阳性}{真阳性+假阴性}=\frac{预测阳性对的}{预测阳性对的+没有预测出来但是阳性的}$
说一下我的理解吧：

精确度是衡量预测结果的准确性（就是预测结果中，有多少是预测对的）。
召回率是衡量预测结果的有效性（就是预测结果中，预测出来的，占真实结果的比例）。

精确度很容易理解，就是模型的正确预测结果的概率。

召回率，就是预测对的结果，占所有阳性结果的比例。衡量，对于一些阳性样本，我们的模型到底能预测出来多少，看对于阳性样本的可信度。

3.回归样例

回到之前的预测癌症的样例中。

如果我们想让预测阳性的精确度升高，我们可以提高精确度需求，比如预测阳性，需要概率函数>0.7。

但是这样会同步降低召回率（没有预测出来的更多了）。

繁殖，想让召回率提高，可以降低精确度要求，比如预测阳性，只需要概率函数>0.3即可。

但这样会同步降低精确度（预测阳性但是预测错的更多了）。

我们大概能的出来这样一个曲线：

在这里插入图片描述

即精确度与召回率的关系，至于为何没办法两者都高，这就是算法模型的问题了。

注意这里有存在阈值。

4.确定算法的优劣

了解了精确度与召回率。我们就可以根据这两个参数来确定该算法模型的优劣了。

通常采用的衡量标准(有很多种标准)
$F_{Score}=2\frac{PR}{P+R}\ \ \ 其中Precision(P)为精确度，Recall(R)为召回率$
这样可以兼顾召回率和准确度，避免简单平均带来的某一值过高，某一值过低引发的平均值较高的状况。

模型的进一步优化思路

对于一个样本的学习，学习完后，使用另一个样本进行检测.针对检测结果的不同，模型函数的进一步优化方法问题汇总

对于一个正则化的代价函数
$J(\theta)=\frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^m\theta_j^2]$
当我们发现训练后的它拟合测试集效果不好时。考虑以下进一步优化方法。

使用更多的训练集
减少特征向量（可能出现过拟合问题）
增加特征向量，
增加多项式特征向量
增大λ
减小λ

当然，这些方法都不是盲目使用的，下面将介绍如何分析拟合情况。

1.数据集分类

对于一种数据集，将其分为三个数据集合，训练集，测试集，交叉验证集即
$\begin{aligned} & 60\%:(x^{(i)},y^{(i)})\\ & 20\%:(x_{test}^{(i)},y_{test}^{(i)})\\ & 20\%:(x_{cv}^{(i)},y_{cv}^{(i)})\\ \end{aligned}$
对于训练集
$J_{train}(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$
对于交叉验证集
$J_{cv}(\theta)=\frac{1}{2m_{cv}}\sum_{i=1}^{m_{cv}}(h_\theta(x^{(i)}_{cv})-y_{cv}^{(i)})^2$

对于测试集
$J_{test}(\theta)=\frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}(h_\theta(x^{(i)}_{test})-y_{test}^{(i)})^2$

将训练集训练得到的输出函数h(x)放入测试集中比较得到模型的测试误差J_test(x)

比较错误。

对于01的逻辑回归

讨论逻辑回归测试误差

$J_{test}(\theta)=-\frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}y_{test}^{(i)}\log h_\theta(x^{(i)}_{test})+(1-y_{test}^{(i)})\log h_\theta (x_{test}^{(i)})$

2.特征值的改变

参考模型选择：

$h_\theta(x)=\theta_0+\theta_1x$
$h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2$
$h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2+...+\theta_3x^3$
$h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2+...+\theta_mx^m$

对于初始特征值少的模型，容易发生欠拟合。

使用初始特征值多的模型，容易发生过拟合。

对比我们的训练集（train）和交叉训练集（cross validation）

多项式的选择

以多项式中的特征值个数为x轴，误差为y轴，画出随多项式变化而变化的训练集误差和交叉训练集误差图像
在这里插入图片描述

从图里面可以看出来，从左到右，随着多项式特征数增大。从左图的欠拟合主键成为右边的过拟合。

训练集的拟合错误逐渐降低。
交叉训练集拟合误差先降低后上升。

可以看出来有两种问题，

偏差问题
- 训练集拟合错误偏高
- 交叉训练集拟合错误与训练集拟合错误相差不大
方差问题
- 训练集拟合错误偏低
- 交叉训练集拟合错误 >> 训练集拟合错误

3.λ正则的改变

对于不同的λ选择，模型也是有着不同的表现。

对于带入不同的正则项
$h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+\theta_4x^4\\ J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\frac{\lambda}{2m}\sum_{j=1}^m\theta_j^2$
在这里插入图片描述

可以看到

λ过大，发生了欠拟合（左图）
λ过小，发生了过拟合（右图）

对于带入λ的模型函数，我们采用另外的三个训练函数来作为采用三个数据集来训练和验证的函数，即。
$\begin{aligned} & h_\theta(x)=\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+\theta_4x^4\\ & J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2+\frac{\lambda}{2m}\sum_{j=1}^m\theta_j^2\\ & J_{train}(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2\\ & J_{cv}(\theta)=\frac{1}{2m_{cv}}\sum_{i=1}^{m_{cv}}(h_\theta(x^{(i)}_{cv})-y_{cv}^{(i)})^2\\ & J_{test}(\theta)=\frac{1}{2m_{test}}\sum_{i=1}^{m_{test}}(h_\theta(x^{(i)}_{test})-y_{test}^{(i)})^2 \end{aligned}$
这里的训练集代价函数和代价函数中间有一个正则化的差别。