Meta-learning 元学习/Model-Agnostic 模型无关等概念的理解

最新推荐文章于 2025-01-20 17:00:00 发布

陈煜嵘Yurong

最新推荐文章于 2025-01-20 17:00:00 发布

阅读量1.9k

点赞数 1

本文链接：https://blog.csdn.net/weixin_43120238/article/details/107483340

版权

原文链接：

https://blog.csdn.net/langb2014/article/details/84953307

这个链接是Meta-learning近年来的一些paper：

https://github.com/floodsung/Meta-Learning-Papers

Meta-Learning

Meta-Learning 即元学习，又称Learning to Learn （学习如何学习）是人工智能理论研究领域前沿也是一项重要分支：Machine Learning --> Deep Learning --> Reinforcement Learning --> Meta Learning。

Machine Learning: 能解决相对简单的分类回归问题；
Deep Learning: 基本解决了一对一映射问题（一个输入对应一个输出）；
Reinforcement Learning: 对sequential decision making有了进一步的进展，但需要巨量的训练，和精确的Reward；

但现实情况往往无法实现无限训练或者没有好的reward，如何充分利用以往的知识经验来完成快速的学习，成为人工智能研究新的攻克方向。

先想想如何才能实现快速学习？
一个很简单的道理，我们人可以利用以往的经验来学习。我们人是基于价值观驱动的动物，即我们做任何事情前都有一杆秤在衡量这件事的重要性，即使有时非常感性，但也是因为感性的时候做那件事的价值最大化了。我们是否可以让AI拥有价值观，并利用价值观来驱动AI快速学习。

这篇paper（https://arxiv.org/pdf/1706.09529.pdf）给出了一个方法：
让AI在学习在学习各种任务后形成一个核心的价值网络，从而面对新的任务时，可以利用已有的核心价值网络来加速AI的学习速度。
在这里插入图片描述
图一：Meta-Critic Network 的示意图；我们希望AI通过学习保持不同长度的杆的任务后，面对一个新的长度的杆，能快速学习掌握让杆平衡的技巧。

具体流程是对每个任务构建一个Actor Network和一个整体核心指导网络（Meta Critic Network)。其包含了两个网络，Meta Value Network和Task-Actor Encoder。在训练多个任务的同时，也训练这个Meta Crtiric Network。网络的关键在于Task-Actor Encoder，在给定任务的历史经验（状态stage，动作action和回馈reward），Task-Actor Encoder 输出任务的表示信息z。为了了解z到底学到了什么，我们用t-SNE可视化出z，如图所示：z的分布与杆的长度是直接相关的。这意味着Task-Actor Encoder确实利用了以往的经验来理解训练一个任务。
在这里插入图片描述

Model-Agnostic

即模型无关，与其说是一个深度学习的model，倒不如说是一个framwork。与在dataset上训练的base-learner不同的是，meta-learner是用于训练base-leanrer的。绝大多数深度学习模型都可作为base-leaner被嵌入在meta-learner中。