深度强化学习
文章平均质量分 85
数分虐我千百遍
这个作者很懒,什么都没留下…
展开
-
表格型方法
强化学习是一个与时间相关的序列决策的问题。概率函数定量地表达状态转移的概率,其可以表现环境的随机性。但是实际上,我们经常处于一个未知的环境中,即概率函数和奖励函数是未知的。它结合了动态规划和蒙特卡罗的思想,通过不断更新状态值函数或者动作值函数来学习最优策略。时序差分算法的特点是它不需要知道环境的完整模型,也不需要等待一个完整的回合结束,而是在每一步都可以进行学习和更新。Sarsa算法是一种时序差分学习的方法,它是一种在线的强化学习算法,即它在学习的过程中遵循和改进同一个策略。Qsa←Qsa。原创 2023-11-18 22:05:10 · 256 阅读 · 0 评论 -
马尔可夫过程
在给定历史状态s0st的情况下,某个状态的未来只与当前状态st有关,与历史的状态无关。pst1∣stpst1∣s0s1st即一个状态的下一个状态只取决于它的当前状态,而与它当前状态之前的状态都没有关系。一组具有马尔可夫性质的随机变量序列s1st,其中下一个时刻的状态只st1取决于当前状态st。我们设状态的历史为hts1s2s3stht。原创 2023-11-15 12:22:02 · 82 阅读 · 0 评论