Reinforcement Learning:分为两种Policy-based 和 Value-based方法
利用gradient进行求解
为什么要用log?
如果所有的R都是正的,那可以加上一个Baseline,使得调整参数过程中,可以增加或者减少。
Reinforcement Learning:分为两种Policy-based 和 Value-based方法
利用gradient进行求解
为什么要用log?
如果所有的R都是正的,那可以加上一个Baseline,使得调整参数过程中,可以增加或者减少。