deepwalk
把原来的8分类问题变成了现在三次的2分类问题。每个绿色框就是一个sigmod。
强化学习
把每一刻的奖励求和,作为类似损失函数,目的是使R最大。但并不是每一个时间的奖励,可以看成从20岁开始的幸福度,所以求一个Rt,但有的人更在乎当前的奖励,所以给未来的奖励打个折扣,就是加一个伽马(小于1)。
q learning
目的是从房间里面走到外面,比如说从2号房间走到5,不管哪条途径,都能获得100个奖励。
可以做一个右图的表格,列是当前的状态,行是待会要去的房间,-1的意思就是不能去那里。比如从1号房间到5号房间就有100奖励。
接下来引入一个q值,就是说假设未来每一步都采取最优策略的前提下,你当前采取这个策略(at)的最大幸福度。
比如说第一行第二列的意思是,从0号房间到1号房间之后,每次都采取最好的策略下,得到的幸福度。所以之后每次都走q值最大的位置。所以q learning的目的就是把这个表填好,之后按这个表走就行了。
用神经网络训练得到q值。