使用强化学习评估训练数据，准确量化训练样本

谷歌开发者

于 2020-12-22 17:45:00 发布

阅读量7k

点赞数 3

文章标签：机器学习人工智能深度学习神经网络计算机视觉

本文链接：https://blog.csdn.net/googledevs/article/details/111569960

版权

Google Research Cloud AI 团队提出了一种基于强化学习的数据估值方法（DVRL），用于评估训练数据样本的价值，以提高模型性能。DVRL 使用RL选择最有价值的样本训练预测器，特别是在处理大规模数据集和复杂模型时，能有效识别并减少低质量或错误标记的数据，从而增强模型的鲁棒性和领域适应性。

摘要由CSDN通过智能技术生成

文 / Google Research Cloud AI 团队研究员 Jinsung Yoon 和 Sercan O. Arik

近期研究表明，并非所有的数据样本对训练都同样实用，深度神经网络 (DNN) 在这一点上表现得尤其明显。事实上，如果数据集包含低质量或错误标记的数据，通常可以移除一大部分训练样本来提高性能。此外，在训练数据集和测试数据集不匹配的情况下（例如，训练和测试的地点或时间不同），也可以将训练集中的样本严格限制为与测试场景最相关的样本，从而提高表现。由于这些场景的普遍性，准确量化训练样本的价值对于提高真实世界数据集上的模型性能具有很大潜力。

上：低质量样本（噪声/众包）示例；下：训练和测试数据不匹配示例

除了提高模型性能外，为单个数据分配一个质量值还可以实现新的用例。这也为数据收集提供了建议，例如，哪种额外的数据最有益；也可以用于更高效地构建大规模的训练数据集，例如，使用标签作为关键字进行网络搜索，过滤掉价值较低的数据。

在收录于 ICML 2020 的“使用强化学习进行数据评估” (Data Valuation Using Deep Reinforcement Learning) 中，我们使用基于元学习的全新方法解决了量化训练数据价值的问题。我们的方法将数据估值整合至预测器模型的训练过程中，该模型学习识别对于给定任务具有更高价值的样本，从而改善预测器和数据估值的性能。我们还推出了四个 AI Hub Notebook，它们展现了 DVRL 的用例，旨在高效适应其他任务和数据集，如领域自适应、损坏样本发现与鲁棒学习、图像数据的迁移学习和数据估值。