自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 强化学习笔记6 Actor-Critic方法

之前学习了价值学习和策略学习,这篇笔记所记录的Actor-Critic方法,用到了策略网络和价值网络这两个神经网络,然后通过环境给的奖励来学习这两个网络;Actor是策略网络,用来控制agent运动,可当做运动员;Critic是价值网络,用来给动作打分,可以把它看做裁判。

2023-03-13 09:23:31 308

原创 强化学习笔记5 策略学习

我们希望得到一个策略函数π,然后用π自动控制agent运动,每当agent观测到状态at,agent就用π函数算出来一个概率分布,然后随机抽样得到一个动作at;直接求策略函数比较困难,所以我们要用神经网络来近似策略函数,这个神经网络被称为策略网络policy network,记作Π(a|s;ϴ);ϴ是神经网络的参数,一开始随机初始化,然后通过策略梯度policy gradient算法来学习参数ϴ;策略梯度是价值函数V关于ϴ的导数;

2023-03-12 11:23:14 148

原创 强化学习笔记4 DQN

用DQN(一个用来打分的Q*函数,也是一个神经网络),st作为输入,给所有的动作打分,选出分数最高的动作,作为at;并且,在我们得到R,Q(S,A),maxQ(S',a)后,需要更新我们的神经网络(用来打分的Q函数),更新公式如上,更新之后给状态S的打分便会是比之前更准确的了,是原来所打分数之上加了误差,便更接近真实值。预测值Q,与目标真实值y,也就相当于【S下的Q值】 与 【用S'下的Q值更新后的S的Q值,此时的Q更接近S下的真实值】,只不过这里求导,用梯度下降更新参数w。也就是预测值和真实值无差。

2023-03-10 19:27:04 165

原创 强化学习笔记3 回报和价值函数

强化学习笔记3 回报与价值函数

2023-02-25 11:29:11 1035

原创 强化学习笔记2 一些基本概念的理解

强化学习笔记2 一些基本概念

2023-02-23 09:50:45 119

原创 强化学习 学习笔记1 一些概率论知识

强化学习——一点点概率论知识,学习王树森课程所作笔记,自己复习用

2023-02-22 16:47:11 171

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除