1.对于强化学习中策略梯度为什么取log的问题 对于强化学习中策略梯度为什么取log的问题_赵YN的csdn的博客-CSDN博客_log 梯度 2. spinning up Expected Grad-Log-Prob Lemma 深度强化学习总结 - 简书