原因:网络权重,因为(1)梯度爆炸 或(2)分母 的原因变成nan,导致输出结果变为nan。导致强化学习环境报错。 解决办法:(1)为防止梯度爆炸,增加归一化 (2)对归一化分母加上合适大小的bias,过大也会导致超过float而变成nan。