深度强化学习笔记

bonlog

于 2022-07-21 17:55:46 发布

阅读量235

点赞数

文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bonlog/article/details/125111443

版权

p3策略学习，

03:06 softmax

state st conv卷积层-》特征向量-》再映射到三维向量（因为3个动作，3维）-》softmax激动函数，变化概率分布，（各概率要相加等于1，每一个元素对应一个动作，）
pai是一个概率密度函数。
softamx激活函数为正，且相加为1

策略函数pai
状态价值函数Vpai
当前状态s
Vpai越大，胜算概率越大
离散动作，可以展开

策略网络的评价，J(sita)，J(sita)越大越好。
所以要，梯度下降，sita学习率

综上要用到策略梯度
09：14
v对sita的导数。连加里面。连加的导数就是导数的连加。

12：06
链式法则，log函数的性质
推导不严谨
12：55
策略梯度的二种等价

对于连续的
用策略梯度的第二种方式。用定积分算不出来，只能用蒙特卡罗近似，把值近似出来

总结的很好
策略梯度。为什么要梯度上升。

P4

所以说学习二个神经网络
08.19步骤
预测与
梯度下降损失函数变小，
12.28总结
为了让裁判变的优秀，也是提高打分水平，裁判基于a q r打分。
用梯度下载来让裁判越来越准
裁判打分qt 及qt+1
TD error，deitat
6算梯度，做梯度下降，是为了越来越准。
用梯度上升。
一共9个动作。
qt也是daitat。
base line，任务接近的，都可以做baseline
最后总结
19.54《cute》
vpai越大越好，
所以用

P6 15.13

蒙特卡罗步骤

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习笔记

statestconv卷积层-》特征向量-》再映射到三维向量（因为3个动作，3维）-》softmax激动函数，变化概率分布，（各概率要相加等于1，每一个元素对应一个动作，）用定积分算不出来，只能用蒙特卡罗近似，把值近似出来。为了让裁判变的优秀，也是提高打分水平，裁判基于aqr打分。策略网络的评价，J(sita)，J(sita)越大越好。连加的导数就是导数的连加。baseline，任务接近的，都可以做baseline。6算梯度，做梯度下降，是为了越来越准。所以要，梯度下降，sita学习率。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。