强化学习基础内容(一)

本文介绍了强化学习的基本概念,包括模型的奖励与惩罚机制、火星探测器中的应用、回报计算、策略函数和状态动作值函数Q(s,a)的概念,以及贝尔曼方程在动态规划和递归中的运用。
摘要由CSDN通过智能技术生成

一、什么是强化学习

对模型的输出给出奖励或惩罚,不给出正确输出。 

二、火星探测器实例

找奖励高的

三、回报

用奖励和折扣系数计算回报

引入折扣因子:一般为0.9或0.99等小于1的数。

不同位置出发向左向右计算奖励,得到第三个表格(在不同位置如何选择)。

四、策略函数

我们需要一个策略函数Π(s)告诉我们在这种状态下如何行动。

五、状态动作值函数(state action value function)

状态动作值函数为Q(s,a)。他返回在s状态下执行a操作后经过最优行为得到的回报(return)。也就是在s状态下应该如何操作并会得到什么结果。

同时可得策略函数Π(s)=a。

六、贝尔曼方程

计算示例

贝尔曼方程用运动态规划和递归思想 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值