基于Q-Table的强化学习笔记

1 几个概念

最近也从小白入手看了些强化学习(Reinforcement Learning,RL)的相关知识,做了一些简单的笔记巩固一下。

1.1 状态空间 S S S和动作空间 A A A

给定强化学习的状态空间 S S S,空间的元素 s ∈ S s \in S sS为每一个状态;给定动作空间 A A A,空间中的元素 a ∈ A a \in A aA为可执行的动作。

1.2 奖励 R R R

某状态 s s s下执行动作 a a a获得的回报称为奖励,表示为 R R R,当前 t t t时间下的累计期望奖励表示为:

U t = R t + γ R t + 1 + γ 2 R t + 2 + γ 3 R t + 3 + . . . . . . U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}+...... Ut=Rt+γRt+1+γ2Rt+2+γ3Rt+3+......

1.3 价值函数与Q-Table

价值函数是在策略 π ( s , a ) \pi(s,a) π(s,a)下的期望,即

Q π ( s , a ) = E [ U t ∣ S = s , A = a ] Q_{\pi}(s,a)=E[U_t|S=s,A=a] Qπ(s,a)=E[UtS=s,A=a]

所有策略下的价值函数就构成了一张Q-Table,强化学习的主要作用就是通过学习得到一张经验Q-Table,使得得到期望结果的最有动作策略。

1.4 马尔可夫性

指在一个随机过程中,如果当前状态和历史状态序列已知,未来状态的概率分布完全取决于当前状态,那么该随机过程被认为满足马尔科夫性质。这也就是说,满足马尔科夫性质的随机过程中,状态转移仅与当前所处状态有关,与历史状态序列相独立。

根据强化学习算法对马尔科夫性质的要求,在不同的学习回合中,同一个状态下的动作空间 A A A应该相同。根据上文对于状态空间 S S S 的定义,在 t + 1 t + 1 t+1时刻的状态是在 t t t时刻选择激活的种子节点。基于此状态空间的定义,对于两个不同的种子节点激活序列,如果它们最近激活的种子节点是同一个,那么它们具有相同的状态 s s s,但同时在相同状态 s s s下将具有不同的动作空间 A A A,这与马尔科夫性质相违背。

2 基于Q-Table的强化学习算法

2.1 SARSA算法

在这里插入图片描述

2.2 Q-learning算法

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Haleine

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值