- 博客(2)
- 收藏
- 关注
原创 CS294 Lecture6-Actor Critic
从 “reward to go” 到 Actor Critic回顾一下REINFORCE算法 1. sample {τi} from πθ(at∣st) (run the policy) 2. ∇θJ(θ)≈∑i(∑t=1T∇θlogπθ(ai,t∣si,t)(∑t′=tTr(si...
2019-05-11 16:05:31 155
原创 矩阵求导详解
向量,矩阵,张量求导向量对向量求导向量对矩阵求导矩阵对矩阵求导使用链式法则总结向量,矩阵,张量求导参考 http://cs231n.stanford.edu/vecDerivs.pdf向量对向量求导如何对 y=Wxy = Wxy=Wx 求导?其中:y:C×1y: {C\times1}y:C×1W:C×DW: {C\times D}W:C×Dx:D×1x: ...
2019-04-04 14:20:43 431
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人