自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 4、强化学习笔记-演员-评论家方法

总结:

2023-08-13 22:09:17 44 1

原创 3、强化学习笔记-策略学习

该方法需要agent玩完一局游戏,观测到所有奖励,然后才能更新策略网络。由于神经网络的复杂性,直接用积分求期望十分复杂,因此使用蒙特卡洛做近似。softmax:输出的都是正数,且加和都为1。使用梯度上升来更新θ。

2023-08-08 22:23:51 20

原创 2、强化学习笔记-价值学习

使用TD算法,必须要有如下所示的等式,等式一侧有一项,另一侧有两项,且两项 中有一项是真实观测到的。TD算法的目标:使TD Error接近于0,使用梯度下降来减少Error。(1)naive的方法:只有完成整个任务才能更新模型。深度强化学习中也有类似公式, rt为真实观测奖励。(2)在任务完成的中间进行模型更新。α:学习率(或步长)

2023-08-06 16:11:45 24

原创 1、强化学习笔记-基本概念

能够去掉动作价值函数中的π:使用最好的策略π,使Qπ最大化。意义:评价当前状态好坏,比如下围棋根据棋盘来判断输赢情况。意义:Q*可以用来评价当前状态下不同动作的好坏。强化学习的目标:学习策略π或者Q*函数。动作价值函数:与具体的策略π有关。我们希望return越大越好。

2023-08-05 22:41:40 27

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除