Q-learning属于基于价值(value)的单步更新离线学习强化学习算法;
什么是基于价值和单步更新看:
http://blog.csdn.net/ilypl/article/details/78539754
先来看一个场景:
我有一条狗,叫doge
doge一开始不知道在哪里拉粑粑,现在doge有两个选择,一个是到马桶拉,另一个就是在房子里面拉。
在S1状态,doge不知道应该是在马桶(a1)拉粑粑还是在房间(a2)里,所以doge就在房间(a2)里拉粑粑,S1结束;
到了S2状态,doge 又要拉粑粑,然后它还是有两个选择a1,a2