机器学习入门（9）——机器学习系统的设计(Machine Learning System Design)

最新推荐文章于 2023-11-13 09:56:20 发布

StriveQueen

最新推荐文章于 2023-11-13 09:56:20 发布

阅读量170

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能误差分析

本文链接：https://blog.csdn.net/strivequeen/article/details/107373178

版权

机器学习专栏收录该内容

16 篇文章 0 订阅

订阅专栏

误差分析（Error Analysis）
不对称性分类的误差评估（Error Metrics for Skewed Classes）
查准率和召回率的权衡（Trading Off Precision and Recall）
机器学习的数据（Data For Machine Learning）

误差分析（Error Analysis）

构建一个学习算法的推荐方法为：

从一个简单的能快速实现的算法开始，实现该算法并用交叉验证集数据测试这个算法
绘制学习曲线，决定是增加更多数据，或者添加更多特征，还是其他选择
进行误差分析：人工检查交叉验证集中我们算法中产生预测误差的样本，看看这些样本是否有某种系统化的趋势

误差分析并不总能帮助我们判断应该采取怎样的行动。有时我们需要尝试不同的模型，然后进行比较，在模型比较时，用数值来判断哪一个模型更好更有效，通常我们是看交叉验证集的误差。
推荐在交叉验证集上来实施误差分析，而不是在测试集上。

不对称性分类的误差评估（Error Metrics for Skewed Classes）

不对称分类情况表现为我们的训练集中有非常多的同一种类的样本，只有很少或没有其他类的样本。
例如我们希望用算法来预测癌症是否是恶性的，在我们的训练集中，只有0.5%的实例是恶性肿瘤。假设我们编写一个非学习而来的算法，在所有情况下都预测肿瘤是良性的，那么误差只有0.5%。然而我们通过训练而得到的神经网络算法却有1%的误差。这时，误差的大小是不能视为评判算法效果的依据的。

查准率（Precision）和召回率（查全率）（Recall）我们将算法预测的结果分成四种情况：

正确肯定（True Positive,TP）：预测为真，实际为真
正确否定（True Negative,TN）：预测为假，实际为假
错误肯定（False Positive,FP）：预测为真，实际为假
错误否定（False Negative,FN）：预测为假，实际为真

则：查准率=TP/(TP+FP)。例：在所有我们预测有恶性肿瘤的病人中，实际上有恶性肿瘤的病人的百分比，越高越好。
召回率=TP/(TP+FN)。例：在所有实际上有恶性肿瘤的病人中，成功预测有恶性肿瘤的病人的百分比，越高越好。
这样，对于我们刚才那个总是预测病人肿瘤为良性的算法，其召回率是0。

查准率和召回率的权衡（Trading Off Precision and Recall）

在很多应用中，我们希望能够保证查准率和召回率的相对平衡。
继续沿用刚才预测肿瘤性质的例子。假使，我们的算法输出的结果在0-1 之间，我们使用阀值0.5 来预测真和假。
查准率**(Precision)=TP/(TP+FP)**
在所有我们预测有恶性肿瘤的病人中，实际上有恶性肿瘤的病人的百分比，越高越好。
召回率**(Recall)=TP/(TP+FN)**
在所有实际上有恶性肿瘤的病人中，成功预测有恶性肿瘤的病人的百分比，越高越好。
如果我们希望只在非常确信的情况下预测为真（肿瘤为恶性），即我们希望更高的查准率，我们可以使用比0.5更大的阀值，如0.7，0.9。这样做我们会减少错误预测病人为恶性肿瘤的情况，同时却会增加未能成功预测肿瘤为恶性的情况。
如果我们希望提高召回率，尽可能地让所有有可能是恶性肿瘤的病人都得到进一步地检查、诊断，我们可以使用比0.5更小的阀值，如0.3。
我们可以将不同阀值情况下，查全率与查准率的关系绘制成图表，曲线的形状根据数据的不同而不同：

我们希望有一个帮助我们选择这个阀值的方法。一种方法是计算F1 值（F1 Score），其计算公式为： $F_{1}$ Score $\frac{P R}{P+R}$
我们选择使得F1值最高的阀值。

机器学习的数据（Data For Machine Learning）

得到大量的数据并在某种类型的学习算法中进行训练，可以是一种有效的方法来获得一个具有良好性能的学习算法。而这种情况往往出现在这些条件对于你的问题都成立。

这些趋势非常明显，首先大部分算法，都具有相似的性能，其次，随着训练数据集的增大，在横轴上代表以百万为单位的训练集大小，从0.1个百万到1000百万，也就是到了10亿规模的训练集的样本，这些算法的性能也都对应地增强了。

StriveQueen

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门（9）——机器学习系统的设计(Machine Learning System Design)

误差分析（Error Analysis）构建一个学习算法的推荐方法为：从一个简单的能快速实现的算法开始，实现该算法并用交叉验证集数据测试这个算法绘制学习曲线，决定是增加更多数据，或者添加更多特征，还是其他选择进行误差分析：人工检查交叉验证集中我们算法中产生预测误差的样本，看看这些样本是否有某种系统化的趋势误差分析并不总能帮助我们判断应该采取怎样的行动。有时我们需要尝试不同的模型，然后进行比较，在模型比较时，用数值来判断哪一个模型更好更有效，通常我们是看交叉验证集的误差。推荐在交叉验证集上来实
复制链接

扫一扫