DRL前沿之：Hierarchical Deep Reinforcement Learning

最新推荐文章于 2024-02-07 22:43:06 发布

VIP文章 songrotek

最新推荐文章于 2024-02-07 22:43:06 发布

阅读量1w

点赞数 1

分类专栏： Deep Reinforcement Learning 深度增强学习DRL 文章标签：深度增强学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/songrotek/article/details/51384752

版权

1 前言

如果大家已经对DQN有所了解，那么大家就会知道，DeepMind测试的40多款游戏中，有那么几款游戏无论怎么训练，结果都是0的游戏，也就是DQN完全无效的游戏，有什么游戏呢？
这里写图片描述
比如上图这款游戏，叫做Montezuma’s Revenge。这种游戏类似超级玛丽，难在哪里呢？需要高级的策略。比如图中要拿到钥匙，然后去开门。这对我们而言是通过先验知识得到的。但是很难想象计算机如何仅仅通过图像感知这些内容。感知不到，那么这种游戏也就无从解决。

那么这篇文章：
Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation

时间：2016年4月20号
来源： arXiv.org

尝试解决这种问题。

2 文章思路

它的思路很简单，就是弄一个两个层级的神经网络，顶层用于决策，确定下一步的目标，底层用于具体行为。
这里写图片描述

不得不说，这个想法显而易见（本人也想过啦）但是，问题的关键是

如何确定内在的目标？？&

最低0.47元/天解锁文章

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
DRL前沿之：Hierarchical Deep Reinforcement Learning

1 前言如果大家已经对DQN有所了解，那么大家就会知道，DeepMind测试的40多款游戏中，有那么几款游戏无论怎么训练，结果都是0的游戏，也就是DQN完全无效的游戏，有什么游戏呢？比如上图这款游戏，叫做Montezuma’s Revenge。这种游戏类似超级玛丽，难在哪里呢？需要高级的策略。比如图中要拿到钥匙，然后去开门。这对我们而言是通过先验知识得到的。但是很难想象计算机如何仅仅通过图像
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。