multi task训练torch_Multi-Task Reinforcement Learning

f0c93f84840b41c545ffe29110ec9ee4.png

最近看B站时候发现机器之心上传了之前12月初的nips2020 meetup的视频,有些关于强化学习的有三个,就看了下,其中有个作者还做了这篇文章的报告,这里简单总结下。nips2020 meetup的B站链接如下:

nips2020 meetup​space.bilibili.com Multi-Task Reinforcement Learning with Soft Modularization 讲座链接​www.bilibili.com

其中meetup中还邀请了南大俞扬老师做了:强化学习与环境模型的专题报告,俞老师主要还是讲了下他们怎么使用现实数据构建更好的环境,其中有些关于滴滴和阿里项目还落地了,还是值得一看的。此外,还有华为的郝建业老师做了:深度强化学习的挑战及落地的专题报告, 虽然郝老师题目中提到了落地,但是视频讲座中主要讲了几篇他们顶会的论文,主要是常用来比较的那几个游戏。,关于落地的干货基本没有或者很少了。

有兴趣也可以看看,扯远了,回来。

文章地址:Multi-Task Reinforcement Learning with Soft Modularization

https://arxiv.org/pdf/2003.13661.pdf​arxiv.org

代码和项目ppt等主页链接:

https://rchalyang.github.io/SoftModule/assets/SoftModule.pdf​rchalyang.github.io https://rchalyang.github.io/SoftModule/​rchalyang.github.io

前言

文章主要是研究使用同一个网络来解决Multi-Task的问题。Multi-Task常见的有:

  • 为每一个task 单独训练一个policy network, 这个可以用来作为上限对比。
  • 使用同一个网络,但是状态加入a one-hot task ID作为输入。
  • 另外就是使用multi-head,也就是同一个
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值