公式出自论文Evolution Strategies as a Scalable Alternative to Reinforcement Learning
有如下求适应度函数关于参数theta分布的梯度公式
其表达含义并不明确,在推导过程中易造成误解,下面是我自己的推导过程。
推导过程
另一个解法
网上找到另一个大佬的解法,是英文的
link
公式出自论文Evolution Strategies as a Scalable Alternative to Reinforcement Learning
其表达含义并不明确,在推导过程中易造成误解,下面是我自己的推导过程。
网上找到另一个大佬的解法,是英文的
link