强化学习——值函数与Bellman方程

本文深入探讨了强化学习中的值函数与Bellman方程,包括MDP模型、值函数的定义、Bellman期望方程及其递推关系。内容覆盖了最优值函数、Bellman最优方程,以及最优策略的相关理论,对于理解强化学习的决策过程有重要帮助。
摘要由CSDN通过智能技术生成

在强化学习中,agent和环境之间进行一系列交互:在每个时刻 t ,根据环境的状态和奖励,agent采取某一行为;这个行为会作用到环境中,环境改变状态并对agent进行奖励。

这里写图片描述

agent的目标是最大化累积奖励。

1 MDP

马尔可夫决策过程(Markov Decision Process, MDP)是对环境的建模。

MDP是一个五元组 <S,A,P,R,γ> ,其中
- S 是一个有限状态集
- A 是一个有限动作集
- P 是一个状态转移概率矩阵, Pass=P[St+1=s|St=s,At=a]
- R 是一个奖励函数, Ras=E[Rt+1|St=s,At=a]
- γ 是一个折扣因子 γ[0,1] .

策略 π 是agent的行为函数:

π(a|s)=P[At=a|St=s]

注意,策略只和状态相关,和时间无关(静态的)。

2 值函数与Bellman期望方程

2.1 值函数

值函数是对未来奖励的一个预测。

回报(return)
回报 Gt 是从时刻 t 开始的总折扣奖励:

Gt=Rt+1+γRt+2+=k=1γkRt+k+1

状态值函数
状态值函数 vπ(s) 是从状态 s 出发,按照策略 π 采取行为得到的期望回报:

vπ(s)=Eπ[Gt|St=s]

状态值函数可以用来评价状态的好坏。

根据定义可以得到:

vπ(s)=Eπ[Rt+1+γGt+1|St=s]=
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值