深度强化学习笔记

p3策略学习,

03:06 softmax

state st conv卷积层-》特征向量-》再映射到三维向量(因为3个动作,3维)-》softmax激动函数,变化概率分布,(各概率要相加等于1,每一个元素对应一个动作,)
pai是一个概率密度函数。
softamx激活函数为正,且相加为1

策略函数pai
状态价值函数Vpai
当前状态s
Vpai越大,胜算概率越大
离散动作,可以展开

策略网络的评价,J(sita),J(sita)越大越好。
所以要,梯度下降,sita学习率

综上要用到策略梯度
09:14
v对sita的导数。连加里面。连加的导数就是导数的连加。

12:06
链式法则,log函数的性质
推导不严谨
12:55
策略梯度的二种等价

对于 连续的
用策略梯度的第二种方式。用定积分算不出来,只能用蒙特卡罗近似,把值近似出来

总结的很好
策略梯度。为什么要梯度上升。

P4

所以说学习二个神经网络
08.19步骤
预测与
梯度下降损失函数变小,
12.28总结
为了让裁判变的优秀,也是提高打分水平,裁判基于a q r打分。
用梯度下载来让裁判越来越准
裁判打分qt 及qt+1
TD error,deitat
6算梯度,做梯度下降,是为了越来越准。
用梯度上升。
一共9个动作。
qt也是daitat。
base line,任务接近的,都可以做baseline
最后总结
19.54《cute》
vpai越大越好,
所以用

P6 15.13

蒙特卡罗步骤

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值