Pearl

最新推荐文章于 2021-11-04 12:31:30 发布

hanx0204

最新推荐文章于 2021-11-04 12:31:30 发布

阅读量222

点赞数

分类专栏：强化学习文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33254440/article/details/109312499

版权

强化学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

用task encoding解决一下问题：

如何从过去学习的任务中针对新的任务获取有效的信息
如何对新任务的uncertainty作出更准确的判断

背景：借用了POMDP的状态推理与学习分开的思想；使用了SAC框架

主要工作：本文Meta-learning的流程为，通过Meta-training过程，对过去积累的tasks experience进行encoding，相当于train出一个task encoder。随后，在Meta-testing的过程中，利用encoder来encoding新任务的关键信息，并在学习中不断地更新对新任务的判断，最后，使用encoder返回的信息进行新任务的learning过程。

Meta Test：完成encoder的training过后，面对一个新的任务，PEARL就可以非常自然的在学习中加入encoded过的信息，从而利用过去学习过的任务进行新任务的学习，即完成了Learn to learn。

总结：总结来说，这篇工作将task inference与learning过程分离的idea来自于POMDPs的探索过程，通过这样的分离，使得meta-RL中对样本的利用率提高了。但是元学习无法回避的对样本的依赖仍然没有解决，如何对learn to learn中的training sample进行选择，可能仍然是需要更多探索的问题。

感觉中的不足：此次的结果对比只和没有利用过expert data的数据进行对比，虽然确实快了一两个数量级，但是为体现出和metaBC之间对比的优势劣势，至少训练速度不占优。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Pearl

用task encoding解决一下问题：如何从过去学习的任务中针对新的任务获取有效的信息如何对新任务的uncertainty作出更准确的判断背景：借用了POMDP的状态推理与学习分开的思想；使用了SAC框架主要工作：本文Meta-learning的流程为，通过Meta-training过程，对过去积累的tasks experience进行encoding，相当于train出一个task encoder。随后，在Meta-testing的过程中，利用encoder来encodi..
复制链接

扫一扫

专栏目录

hanx0204 CSDN认证博客专家 CSDN认证企业博客

码龄9年

17: 原创

14万+: 周排名

208万+: 总排名

8万+: 访问

: 等级

869: 积分

28: 粉丝

48: 获赞

6: 评论

250: 收藏

私信

关注

热门文章

分类专栏

最新评论

Deepmimic安装避坑指北
龙虎山王道长: clang: error: no such file or directory: 'objs/Main.o' 博主请问make python的时候报这个错是什么原因啊
linux通过ftp服务器与ipad 传输文件
爱媛YY: 这波操作非常⑥，[赞][赞][赞]
ubuntu安装deepin-wine2.18-22环境和依赖的方法
东北小狐狸-Hellxz: 现在这个也失效了
ubuntu安装deepin-wine2.18-22环境和依赖的方法
知足者常乐yfm: 阿里云、清华源镜像的链接都已失效。新的链接
ubuntu安装deepin-wine2.18-22环境和依赖的方法
知足者常乐yfm: #!/bin/bash mkdir /tmp/deepintemp cd /tmp/deepintemp wget http://packages.deepin.com/deepin/pool/non-free/d/deepin-wine/deepin-wine_2.18-22~rc0_all.deb wget http://packages.deepin.com/deepin/pool/non-free/d/deepin-wine/deepin-wine32_2.18-22~rc0_i386.deb wget http://packages.deepin.com/deepin/pool/non-free/d/deepin-wine/deepin-wine32-preloader_2.18-22~rc0_i386.deb wget http://packages.deepin.com/deepin/pool/non-free/d/deepin-wine-helper/deepin-wine-helper_1.2deepin8_i386.deb wget http://packages.deepin.com/deepin/pool/non-free/d/deepin-wine-plugin/deepin-wine-plugin_1.0deepin2_amd64.deb wget http://packages.deepin.com/deepin/pool/non-free/d/deepin-wine-plugin-virtual/deepin-wine-plugin-virtual_1.0deepin3_all.deb wget http://packages.deepin.com/deepin/pool/non-free/d/deepin-wine-uninstaller/deepin-wine-uninstaller_0.1deepin2_i386.deb wget http://packages.deepin.com/deepin/pool/non-free/u/udis86/udis86_1.72-2_i386.deb wget http://packages.deepin.com/deepin/pool/non-free/d/deepin-wine/deep

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。