马尔科夫奖励过程MRP
状态转移函数: P ( S t + 1 = s ′ ∣ s t = s ) P\left(S_{t+1}=s^{\prime} \mid s_{t}=s\right) P(St+1=s′∣st=s)
奖励函数: R ( s t = s ) = E [ r t ∣ s t = s ] R\left(s_{t}=s\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s\right] R(st=s)=E[rt∣st=s]
回报: G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + γ 3 R t + 4 + … + γ T − t − 1 R T \mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT
回报只是状态转移中的一条路径的价值
状态价值函数:回报的期望 V t ( s ) = E [ G t ∣ s t = s ] = E [ R t + 1 + γ R t + 2 + γ 2 R t + 3 + … + γ T − t − 1 R T ∣ s t = s ] \begin{aligned} \mathrm{V}_{\mathrm{t}}(\mathrm{s}) &=\mathbb{E}\left[\mathrm{G}_{\mathrm{t}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \\ &=\mathbb{E}\left[\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right] \end{aligned} Vt(s)=E[Gt∣st=s]=E[Rt+1+γRt+2+γ2Rt+3+…+γT−t−1RT∣st=s],
状态价值函数相较于奖励函数,考虑了折扣后的未来的奖励,是一个更加靠谱的状态价值的估计;奖励函数只是考虑了当下。
状态价值函数是回报的一个期望
R t + 1 表 示 t 时 刻 的 奖 励 R_{t+1}表示t时刻的奖励 Rt+1表示t时刻的奖励
马尔科夫决策过程MDP
状态转移概率 P ( S t + 1 = s ′ ∣ s t = s , a t = a ) P\left(S_{t+1}=s^{\prime} \mid s_{t}=s,a_{t}=a\right) P(St+1=s′∣st=s,at=a)
奖励函数 R ( s t = s , a t = a ) = E [ r t ∣ s t = s , a t = a ] R\left(s_{t}=s,a_{t}=a\right)=\mathbb{E}\left[r_{t} \mid s_{t}=s,a_{t}=a\right] R(st=s,at=a)=E[rt∣st=s,at=a]
回报: G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + γ 3 R t + 4 + … + γ T − t − 1 R T \mathrm{G}_{\mathrm{t}}=\mathrm{R}_{\mathrm{t}+1}+\gamma \mathrm{R}_{\mathrm{t}+2}+\gamma^{2} \mathrm{R}_{\mathrm{t}+3}+\gamma^{3} \mathrm{R}_{\mathrm{t}+4}+\ldots+\gamma^{\mathrm{T}-\mathrm{t}-1} \mathrm{R}_{\mathrm{T}} Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+…+γT−t−1RT
状态价值函数: v π ( s ) = E π [ G t ∣ s t = s ] \mathrm{v}^{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s\right] vπ(s)=Eπ[Gt∣st=s]
动作价值函数,Q函数: q π ( s , a ) = E π [ G t ∣ s t = s , A t = a ] q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, A_{t}=a\right] qπ(s,a)=Eπ[Gt∣st=s,At=a]