Q学习的局限性

最新推荐文章于 2024-08-12 01:12:02 发布

somewangsky

最新推荐文章于 2024-08-12 01:12:02 发布

阅读量2.7k

点赞数

1.Q学习是平坦式（ flat）的，不能很好地捕捉任务结构，尤其受维数灾难的约束。
2.利用经典的TD error来one-step更新迭代，达到(near)/optimal ，速度慢！！
3.对于exploration与exploitation之间的balance没有一个统一的framework，当然这要具体问题具体分析。以上这些都是比较明显的局限性。

强化学习在应用中的关键问题：知识的表示形式离散还是连续，如何表示探索与利用的平衡现有的策略时间线：greedy -> boltzmann (对Q做了一个采样分布) -> Simulated Annealing (重要性采样) -> UCB (基于上信任边界)函数的泛化方法一般用神经网络来泛化。

函数的逼近与泛化是强化学习应用于实际应用的一个重要手段。

回报函数的设计回报函数是稀疏的，导致值迭代链长。

如何有效的识别潜在的强化信号是一个非常值得研究的课题。Reward Shaping技术是嵌入启发信息。还有逆强化学习IRL是专门来学习Reward的。

算法结构的设计算法模式：单层、分层、分布式 ……