对战
下一步怎么走?
走这一步的价值如何?
当前的地图 -> Critic网络 -> y1
当前的地图 + 选中的动作 -> Critic网络 -> y2
value1 = y1
value2 = r*y2 + reward
loss1 = (value1 - value2)^2
当前地图 -> Actor网络 -> 4 个动作概率(yi)
loss2 = -sum(y_truth * log(yi))
样本:(当前地图,随机走一步)
loss3 = sum(loss1 * log(yi))
TD_error