图神经网络和强化学习

deepwalk

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
把原来的8分类问题变成了现在三次的2分类问题。每个绿色框就是一个sigmod。

强化学习

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
把每一刻的奖励求和,作为类似损失函数,目的是使R最大。但并不是每一个时间的奖励,可以看成从20岁开始的幸福度,所以求一个Rt,但有的人更在乎当前的奖励,所以给未来的奖励打个折扣,就是加一个伽马(小于1)。
q learning
在这里插入图片描述
目的是从房间里面走到外面,比如说从2号房间走到5,不管哪条途径,都能获得100个奖励。
在这里插入图片描述
可以做一个右图的表格,列是当前的状态,行是待会要去的房间,-1的意思就是不能去那里。比如从1号房间到5号房间就有100奖励。
在这里插入图片描述
接下来引入一个q值,就是说假设未来每一步都采取最优策略的前提下,你当前采取这个策略(at)的最大幸福度。
在这里插入图片描述
比如说第一行第二列的意思是,从0号房间到1号房间之后,每次都采取最好的策略下,得到的幸福度。所以之后每次都走q值最大的位置。所以q learning的目的就是把这个表填好,之后按这个表走就行了。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
用神经网络训练得到q值。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值