强化学习-Q-learning

QLearning是一种强化学习算法,通过建立Q-table存储不同状态下采取动作的预期收益。算法核心是通过Q值选择最大化收益的动作,初始时对Q值进行随机初始化,然后通过不断迭代更新,最终达到收敛。举例说明了在建筑物房间问题中如何运用Q-learning寻找最优路径。
摘要由CSDN通过智能技术生成

QLearning是强化学习算法中value-based 的算法,Q即为Q(s,a)就是在某一时刻的 s 状态下(s∈S),采取 动作a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward r,所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。

算法:
在这里插入图片描述
Q更新公式:
在这里插入图片描述
S1 为 s 对应的下一个状态有(1,2,4都是状态3对应的非负状态),随机地,我们选择其中一个座位s1.

例子:
假设我们在一个建筑物中有5个房间,这些房间由门相连,如下图所示。 我们将每个房间编号为0到4。建筑物的外部可以视为一个大房间(5)。 请注意,1号和4号门从5号房间(外部)通向建筑物。
在这里插入图片描述
初始化:-1不可达,0可达,100可达终点(其中状态2表示起点,5表示终点)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值