Sarsa 算法(on-policy)
在s状态时,跟据当前Q网络以及一定的策略(e-greedy)来选取动作a,进而观测到下一状态s',并再次根据当前Q网络及相同的e- greedy策略选择动作a',这样就有了一个<s,a,r,s',a'>序列,成为一个sample。
- 注意:
1.在状态s'时,就知道了要采取哪个a',并真的采取了这个动作。
在s状态时,跟据当前Q网络以及一定的策略(e-greedy)来选取动作a,进而观测到下一状态s',并再次根据当前Q网络及相同的e- greedy策略选择动作a',这样就有了一个<s,a,r,s',a'>序列,成为一个sample。
1.在状态s'时,就知道了要采取哪个a',并真的采取了这个动作。