如何持续改善你的模型？

最新推荐文章于 2024-09-22 16:34:30 发布

求则得之，舍则失之

最新推荐文章于 2024-09-22 16:34:30 发布

阅读量1.1k

点赞数

分类专栏：必备知识文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43229348/article/details/120035068

版权

必备知识专栏收录该内容

32 篇文章

订阅专栏

您已经构建了第一个模型，并计划将其部署到生产环境中。现在怎么办呢?

像任何软件一样，计算机视觉模型需要不断改进以应对潜在的边缘情况。这个过程实际上在我们将模型投入生产之前就开始了，并在部署之后继续进行。我们的模型不会是完美的，这没关系。我们应该建立允许容错和持续改进的系统。
在这里插入图片描述
$建立计算机视觉模型是一个迭代的过程$
作为回顾，主动学习是我们在数据集中识别示例的过程，这将更快地改进模型的学习。例如，如果您正在构建一个包检测模型，您可能会发现该模型开始时在常见的包形状上表现得非常好，但需要提供更多不太常见的包(黄色扁平包)的数据。

主动学习的主要问题是:我们如何确定哪些数据点应该优先进行(再)训练?更简单地说，哪些图像将更快地改进我们的模型的功能。

模型失败有多种形式。让我们回到包检测模型示例。也许我们的模型将家门口的物品识别为不是包裹的物品——假阳性检测。也许我们的模型没能识别出我们家门口有个包裹——假阴性。也许我们的模型能识别包，但它在这些检测中不是很有信心。

一般来说，我们的生产系统应该始终有持续的监视(和数据收集)。这里有一些我们可以用来改进连续数据收集的策略。

1.连续随机收集新图像

在这个例子中，不管模型在这些图像中看到了什么，我们都将进行定期采样。假设我们有一个模型在视频中运行。使用连续随机数据集收集，我们可以每抓取1000帧就将其发送到我们的训练数据集。

随机数据收集的优势是帮助发现假阴性。因为我们可能不知道模型在哪里失败了，所以随机选择的图像可能包括那些失败的案例。

另一方面，随机数据收集是随机的。它并不是特别精确，这可能会导致我们在一堆不相干的图像中寻找目标，犹如大海捞针。

2.收集低于给定置信阈值的新图像

当模型做出预测时，它为预测提供一个置信度。我们可以为模型预测设定一些可接受的置信标准。如果我们的模型的预测低于这个阈值，它可能是一个很好的图像，可以发送回我们的训练数据集。

这种策略的优势在于将我们的数据收集集中在可能更清楚地包含模型失败的地方。这是改善我们的数据收集的一个简单的，低风险的优化。

然而，这种策略并不能捕捉到所有的假阳性或任何假阴性。从理论上讲，假阳性可能是如此自信地假，以至于它们超过了我们的阈值。假阴性不会有相关的信心;在这些情况下没有预测。

3.请求应用程序的用户验证模型预测

根据您的模型的环境，您可能能够利用与模型交互的用户来确认或拒绝模型输出。假设你正在建立一个帮助药剂师数药片的模型。与他们所感知到的数量相比，这些药剂师可能忽视了模型的预测。使用视觉模型的应用程序可以包含一个按钮，表示给定的计数看起来不正确，并且可以将该样本送回继续训练。更好的是，当用户没有说某些东西看起来不正确时，该样本可以用于继续以肯定模型性能的形式进行再训练。

这种策略的优点是，它在生产使用时包含了人在循环，这大大减少了检查模型性能的开销。

当然，这种策略只有在模型与终端用户输入交互时才有效，而遥感或监控等事情可能就不是这样了。在任何情况下，在完全自主之前，不需要人类查看图像或视频的系统通常都有一个混合模型和人类推理的阶段，从而可以采用这种策略。

将主动学习整合到应用程序中
以上所有策略都依赖于将感兴趣的图像发送回源数据集的自动方法。你可以通过编程将有问题的图像或视频帧发送回你的源数据集。(注意:在模型完全脱机运行的情况下，可以缓存图像，直到系统有定期的外部连接间隔来发送图像。)