1.Q学习是平坦式( flat)的,不能很好地捕捉任务结构,尤其受维数灾难的约束。
2.利用经典的TD error来one-step更新迭代,达到(near)/optimal ,速度慢!!
3.对于exploration与exploitation之间的balance没有一个统一的framework,当然这要具体问题具体分析。以上这些都是比较明显的局限性。
强化学习在应用中的关键问题:知识的表示形式 离散还是连续,如何表示探索与利用的平衡现有的策略时间线:greedy -> boltzmann (对Q做了一个采样分布) -> Simulated Annealing (重要性采样) -> UCB (基于上信任边界)函数的泛化方法一般用神经网络来泛化。
函数的逼近与泛化是强化学习应用于实际应用的一个重要手段。
回报函数的设计回报函数是稀疏的,导致值迭代链长。
如何有效的识别潜在的强化信号是一个非常值得研究的课题。Reward Shaping技术是嵌入启发信息。还有逆强化学习IRL是专门来学习Reward的。
算法结构的设计算法模式:单层、分层、分布式 ……