小徐742-CSDN博客

原创绪论，马尔可夫过程，动态规划。

截至目前，我们讲的都是有限状态马尔可夫决策过程（ finite MDP ），这指的是状态的数量必须是有限的（无论是离散的还是连续的。交互的这个过程我们一般叫离散的时步，用t来表示，当前环境状态为St，根据这个状态执行St执行at，这又会得到一个奖励Rt+1，之后状态和动作更新，大致如图。这个公式的意思就是在给定历史状态S0,S1,⋯,St的情况下，某个状态的未来只与当前状态St有关，与历史的状态无关。，从特定状态出发，按照某种策略Π进行决策所能得到的回报期望值，注意这里的回报是带有折扣因子的。

2023-11-15 21:15:03 221

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 绪论，马尔可夫过程，动态规划。

空空如也

空空如也

原创绪论，马尔可夫过程，动态规划。