p3策略学习,
03:06 softmax
state st conv卷积层-》特征向量-》再映射到三维向量(因为3个动作,3维)-》softmax激动函数,变化概率分布,(各概率要相加等于1,每一个元素对应一个动作,)
pai是一个概率密度函数。
softamx激活函数为正,且相加为1
策略函数pai
状态价值函数Vpai
当前状态s
Vpai越大,胜算概率越大
离散动作,可以展开
策略网络的评价,J(sita),J(sita)越大越好。
所以要,梯度下降,sita学习率
综上要用到策略梯度
09:14
v对sita的导数。连加里面。连加的导数就是导数的连加。
12:06
链式法则,log函数的性质
推导不严谨
12:55
策略梯度的二种等价
对于 连续的
用策略梯度的第二种方式。用定积分算不出来,只能用蒙特卡罗近似,把值近似出来
总结的很好
策略梯度。为什么要梯度上升。
P4
所以说学习二个神经网络
08.19步骤
预测与
梯度下降损失函数变小,
12.28总结
为了让裁判变的优秀,也是提高打分水平,裁判基于a q r打分。
用梯度下载来让裁判越来越准
裁判打分qt 及qt+1
TD error,deitat
6算梯度,做梯度下降,是为了越来越准。
用梯度上升。
一共9个动作。
qt也是daitat。
base line,任务接近的,都可以做baseline
最后总结
19.54《cute》
vpai越大越好,
所以用
P6 15.13
蒙特卡罗步骤