在尝试强化学习训练时,TD error值很大的原因可能有很多。一些常见的原因包括:
网络架构不够复杂,无法足够准确地预测状态和动作之间的关系。
训练样本数量不足,导致网络在训练时无法收敛。
学习率过大,导致网络参数被更新得过于频繁,从而导致训练不稳定。
没有使用足够多的经验回放,导致网络在训练时没有足够的经验来支撑其学习。
如果你正在经历这些问题,你可以尝试以下方法来修改它们:
尝试使用更复杂的网络架构,并且给网络提供更多的训练数据。
调低学习率,以便网络参数的更新更加稳定。
增加经验回放的使用量,以便网络有更多的机会学习和改善。
尝试使用更多的超参数调整方法,例如自适应学习率调整或者使用更多的正则化方法。