机器学习_阅读笔记_算法评估

最新推荐文章于 2024-05-06 02:11:20 发布

kanbuqinghuanyizhang

最新推荐文章于 2024-05-06 02:11:20 发布

阅读量521

点赞数

分类专栏：机器学习面试笔记

本文链接：https://blog.csdn.net/kanbuqinghuanyizhang/article/details/79075413

版权

面试同时被 3 个专栏收录

23 篇文章 0 订阅

订阅专栏

机器学习

15 篇文章 0 订阅

订阅专栏

笔记

15 篇文章 0 订阅

订阅专栏

样本量与误差

样本量影响训练误差及验证误差。
总体情况是：样本量少的时候，训练算法基本都能正确拟合数据，所以样本量少的时候训练误差小，但泛化程度不好，对新样本的适应能力不好，所以样本量少的时候交叉验证的误差大。
当样本量增加是，训练很难对所有样本拟合，故样本量增大的时候训练误差增大，但算法拟合能力更强了，对新样本的适应能力强，所以样本量增大的时候交叉验证的误差减少。
如下示意图：

high bias(偏差) & high variance(方差)

一般而言高偏差意味着欠拟合，高方差意味着过拟合。

通过以下两种情况判断是高偏差还是高方差：

1、Experiencing high bias:
Low training set size: causes $J_{train}(\theta)$ to be low and $J_{CV}(\theta)$ to be high.
Large training set size: causes both $J_{train}(\theta)$ and $J_{CV}(\theta)$ to be high with $J_{train}(\theta)$ ≈ $J_{CV}(\theta)$ .

这种情况下是underfit，算法不能准确的拟合数据，增加样本量最终test error和train error几乎相等，当出现这种情况下，增加样本量不会对算法有任何作用。

示意图如下：
这里写图片描述

2、Experiencing high variance:
Low training set size: $J_{train}(\theta)$ ) will be low and $J_{CV}(\theta)$ will be high.
Large training set size: $J_{train}(\theta)$ increases with training set size and $J_{CV}(\theta)$ continues to decrease without leveling off. Also, $J_{train}(\theta)$ < $J_{CV}(\theta)$ but the difference between them remains significant.
这种情况下是overfit，增加样本数对算法有作用

示意图如下：
这里写图片描述

下面示意图是模型复杂度与偏差、方差的关系：

下面介绍如何解决high bias 和 high variance

Fixes high variance
- Getting more training examples
- Trying smaller sets of features
- Increasing λ(λ为正则项参数)
Fixes high bias
- Adding features
- Adding polynomial features
- Decreasing λ

我们需要对错误进行分析，调整模型，简单的可以实施以下几步：

1、从一个简单的算法开始，快速实现它，并对它进行交叉检验
2、画出learning curves来决定是否需要添加更多样本、更多特征等等
3、人工检查交叉验证的错误的例子，找出导致错误的原因
对垃圾邮件来说，500封邮件100封判断错误，分析这些邮件类型，比如广告30封，盗密码50封，其他20封，就要对盗密码的情况添加新的特征到模型中。
除以上外，还要针对单词大小写，同类词是否当做一类特征需要进行试验才能知道。

评估指标

通常我们把分类错误的样本数占样本总数的比例称为“错误数”(error rate)，相应的，“正确率”(accuracy) = 1 - “错误数”，但对于正负样本比例倾斜严重的情况，比如测试数据中有99个负样本，1个正样本，假设测试把所有数据都判定为负样本对应的值，那“正确率”达到了99%，这显然不合理的。
因此我们可以使用新的平均指标。

查准率、召回率

首先我们定义
TP(True Positive): 将正类预测成正类数
FN(False Negative):将正类预测成负类数
FP(False Positive): 将负类预测成正类数
TN(True Negative): 将负类预测成负类数

查准率定义为

P r e c i s i o n (P) = T P T P + F P

$Precision(P) = \frac{TP}{TP+FP}$
召回率定义为

R e c a l l (R) = T P T P + F N

$Recall(R) = \frac{TP}{TP+FN}$
F1定义

F 1 = 2 \times P \times R P + R = 2 \times T P 样 例 总 数 + T P - T N

$F1=\frac{2 \times P \times R}{P+R} =\frac{2 \times TP}{样例总数+TP-TN}$
查准率和召回率是一对矛盾的度量，一般一个高，另一个就偏低。下面给出这两者关系的P-R图

上图中给出A、B、C三个学习器，若一个学习器的P-R曲线被另个一个学习器的曲线完全“包住”，则可断言后者的性能优于前者(如A优于C)。但两个曲线发生交叉则很难判断(如A和B)。

为比较R-P曲线有交叉的学习器，我们可以通过以下几种方法：
1、“平衡点”(BEP)：“查准率=召回率”的点，这样就可以判断学习器A优于B
2、F1值，一般F1值越大越好。
3、有时对查准率和召回率的重视程度不同，比如在商品推荐中，为了尽可能少地打扰客户，更希望推荐内容确实是用户感兴趣的，此时的查准率更为重要；相反，在逃犯信息检索中，更希望尽可能少漏掉逃犯，此时查全率比较重要，所以可以使用 $F_\beta$ 替换F1：