- 博客(2)
- 问答 (2)
- 收藏
- 关注
原创 Iterative Linear Quadratic Gaussian(iLQG)
论文简述原论文:http://maeresearch.ucsd.edu/groups/skelton/publications/weiwei_ilqg_CDC43.pdf本文工作把一个非线性最优控制问题,在每次迭代中都在局部归化为控制理论里面研究很成熟的Linear Quadratic Gaussian(LQG)问题,然后迭代地去求解更好的控制序列,直到收敛。与强化学习的区别在于强化学习中不...
2019-09-25 15:41:12
1840
原创 Hierarchical deep reinforcement learning (H-DQN)
论文简述经典的DQN在面临环境反馈稀疏和反馈延迟的情况下无能为力。例如在 Montezuma’s Revenge 游戏中,无论DQN如何去学习均为0。原因在于这类游戏需要高级的策略。比如图中要拿到钥匙,然后去开门。这对我们而言是通过先验知识得到的。但是很难想象计算机如何仅仅通过图像感知这些内容。感知不到,那么这种游戏也就无从解决。为此,文中构造了一个两个层级的算法,顶层用于决策,确定下一步的...
2019-09-25 10:18:49
2679
空空如也
请求大神帮忙解答一下 谢谢
2015-01-05
请大神帮忙解答一下,谢谢
2015-01-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅