master_hao-CSDN博客

原创 Iterative Linear Quadratic Gaussian（iLQG）

论文简述原论文：http://maeresearch.ucsd.edu/groups/skelton/publications/weiwei_ilqg_CDC43.pdf本文工作把一个非线性最优控制问题，在每次迭代中都在局部归化为控制理论里面研究很成熟的Linear Quadratic Gaussian（LQG）问题，然后迭代地去求解更好的控制序列，直到收敛。与强化学习的区别在于强化学习中不...

2019-09-25 15:41:12 1840

原创 Hierarchical deep reinforcement learning (H-DQN)

论文简述经典的DQN在面临环境反馈稀疏和反馈延迟的情况下无能为力。例如在　Montezuma’s Revenge　游戏中，无论DQN如何去学习均为０。原因在于这类游戏需要高级的策略。比如图中要拿到钥匙，然后去开门。这对我们而言是通过先验知识得到的。但是很难想象计算机如何仅仅通过图像感知这些内容。感知不到，那么这种游戏也就无从解决。为此，文中构造了一个两个层级的算法，顶层用于决策，确定下一步的...

2019-09-25 10:18:49 2679