Q-learning:是一种无模型RL的形式, 缺点: 在估计动作价值的时候包含了“选取最大估计”的步骤,所以在学习的过程中可能会导致过估计,特别是DQN算法。如果这种过估计不均匀或者没有集中在想要了解的状态上,就会产生负面的影响。