基线长度中误差的计算_基线估计

最新推荐文章于 2024-05-08 20:44:35 发布

weixin_39784460

最新推荐文章于 2024-05-08 20:44:35 发布

阅读量2k

点赞数

文章标签：基线长度中误差的计算

本文链接：https://blog.csdn.net/weixin_39784460/article/details/112205463

版权

—

什么是基线估计 以深度学习为代表的现代机器学习方法在预测和分类准确性上取得了巨大的成功。在机器学习中，典型的学习过程首先将可用的训练数据拆分为训练、验证和测试集，我们在训练集上训练模型，在验证集上验证超参数，在测试集上验证模型的性能。但是在实际应用中，性能良好的测试集模型将如何发挥作用？如果模型A在测试集上的性能优于模型B，这是否意味着在实际应用中A模型的效果更好？实际上有许多因素会影响模型的实际落地效果，如测试集的分布与模型训练数据存在分布差异，模型在预测或分类时是不可靠的，且这种误差不可评估。

Examples of 16 corruption types in ImageNet-C images

以上图为例，假设我们有一个给猫狗分类的神经网络，同一只狗的照片可做如上等多种变换，以高斯随机误差为例，测试样本随机误差的成分越高，模型对其分类识别的准确率越低。再回到实际的工业场景，以自动驾驶为例，影响样本不确定性的因素有时间(白天黑夜春夏秋冬)、天气(晴阴雨雪)、地理位置(城市农村山区平原)，如果实际环境出现了模型不确定的样本，模型预测出错所带来的影响可能是十分严峻的。已有许多前人针对这一问题展开研究，这些研究的keyword可能存在差异，但主体思路类似，通过刻画一个预测分布而并未预测概率来提升模型鲁棒性。基线估计是我在蚂蚁的工作项目所抽象出来的算法框架，它原本是针对运维领域内的容量场景所做的基线区间估计，就落地场景而言，它还是比较局限的，但基线估计这个概念本身是不局限的，这个概念在领域内的名称可能多种多样，如OOD检测、新颖性检测等，这些名词实际所描绘的东西是一致的，都是衡量正常数据的分布，并通过推荐分布阈值来判断异常，所以我姑且称之为基线估计。在相关介绍开始前，结合在百度和蚂蚁的工作经验，我个人认为对某个对象的基线分布的刻画比直接进行异常检测有着更广泛的用途，以蚂蚁的容量工作来看，风险对象的多指标基线区间估计，比指标的异常检测有着更广泛的用途，基线估计除了可以用来做指标的异常检测，还可以应用于其他诸多场景。此外基线估计有着诸多可能落地的工业场景，如：IT安全、医学诊断、工业场景的监控与异常检测、图像识别、视频监控、文本挖掘、传感器网络等。在应对不同场景下，就整体算法架构而言，它需要适配不同的数据输入(如工业场景的多维时序监控数据，文本挖掘场景的文本数据，医学诊断的图像数据等)，并针对不同的数据输入都需要与之对应的手段，同时还需要支撑不同的场景输出。诚如《致未来》中提到的方法论深度与广度的重要性，因此针对基线估计相关的算法深度和广度建设至关重要。本文对领域内的相关领域和手段做简短的总结，并在后续会针对每种手段与场景做更详细的梳理。

—

相关文献

前言提及的相关文献工作，主要以如下4个方向为代表。

2.1 Out-of-distribution Detection

Hendrycks[2]等人关于in-distribution和out-of-distribution检测的描述: can we predict whether a test example is from a different distribution from the training data; can we predict if it is from within the same distribution Kimin[7]等人关于OOD检测的描述: For detecting out-of-distribution (OOD) samples, recent works have utilized the confidence from the posterior distribution, such as the maximum value of posterior distribution from the classifier as a baseline method Winkens[8]等人关于OOD检测的定义: Out-of-distribution dete

最低0.47元/天解锁文章

weixin_39784460

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基线长度中误差的计算_基线估计

01—什么是基线估计以深度学习为代表的现代机器学习方法在预测和分类准确性上取得了巨大的成功。在机器学习中，典型的学习过程首先将可用的训练数据拆分为训练、验证和测试集，我们在训练集上训练模型，在验证集上验证超参数，在测试集上验证模型的性能。但是在实际应用中，性能良好的测试集模型将如何发挥作用？如果模型A在测试集上的性能优于模型B，这是否意味着在实际应用中A模型的效果更好？实...
复制链接

扫一扫