2020/7/22 PPO里面之所以非要在forward的时候使用dist来sample,而不能像其他(如DDPG)一样直接出来tanh就是action,是因为我们最后要计算 l o g P ( a ∣ s ) logP(a|s) logP(a∣s),而计算这个只能借用distribution的函数来计算,所以必须要有个distribution