标签(): 机器学习
当学习状态空间很大,例如围棋的学习中,由于状态空间过大导致Q表远远超过内存,所以在复杂学习情况下Q表更新并不适用。
取而代之的是用神经网络当做Q表使用,第一种神经网络是输入状态和动作,输出动作的评价值,第二种神经网络是输入状态输出所有动作和该动作的评价值,再从中选取评价高的动作进行决策。
算法更新:
Q ( S ′ ) 现 实 = R + γ ∗ m a x Q ( s ′ ) Q(S^{'})现实=R+\gamma*maxQ(s^{'}) Q(S′)现实=