Q学习的局限性

1.Q学习是平坦式( flat)的,不能很好地捕捉任务结构,尤其受维数灾难的约束。
2.利用经典的TD error来one-step更新迭代,达到(near)/optimal ,速度慢!!
3.对于exploration与exploitation之间的balance没有一个统一的framework,当然这要具体问题具体分析。以上这些都是比较明显的局限性。

强化学习在应用中的关键问题:知识的表示形式 离散还是连续,如何表示探索与利用的平衡现有的策略时间线:greedy -> boltzmann (对Q做了一个采样分布) -> Simulated Annealing (重要性采样) -> UCB (基于上信任边界)函数的泛化方法一般用神经网络来泛化。

函数的逼近与泛化是强化学习应用于实际应用的一个重要手段。

回报函数的设计回报函数是稀疏的,导致值迭代链长。

如何有效的识别潜在的强化信号是一个非常值得研究的课题。Reward Shaping技术是嵌入启发信息。还有逆强化学习IRL是专门来学习Reward的。

算法结构的设计算法模式:单层、分层、分布式 ……

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值