A3C文献
actor based复习
从右往左理解公式:在互动获取数据之后,在某个状态s采取行为a的概率,括号中是权重(越往后影响越低,有正有负),玩到底将所有的加起来得到G。计算梯度,更新actor的参数
问题在于,某个状态s经过a之后的状态是一个分布,除非采样很多,不然极不稳定,而每个s的每个action的采样不可能很多
能不能估计期望值?所以有了value base的方法:Qlearning
之前是累计所有游戏中的某个state之中执行某个action a之后的轨迹得到G,进而更新 actor
现在将某个state之后所有可能的action的期望的G,形成一个critic
G的期望就是Q函数的网络输出,网络输出每个行为的得分期望(TD比较稳,MC比较精确);之前是用得分期望更新网络参数,输出行为的概率,