图神经网络和强化学习

最新推荐文章于 2024-06-09 09:46:25 发布

ffllxx123

最新推荐文章于 2024-06-09 09:46:25 发布

阅读量855

点赞数

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ffllxx123/article/details/127142786

版权

deepwalk

在这里插入图片描述

把原来的8分类问题变成了现在三次的2分类问题。每个绿色框就是一个sigmod。

强化学习

在这里插入图片描述

把每一刻的奖励求和，作为类似损失函数，目的是使R最大。但并不是每一个时间的奖励，可以看成从20岁开始的幸福度，所以求一个Rt，但有的人更在乎当前的奖励，所以给未来的奖励打个折扣，就是加一个伽马（小于1）。
q learning
在这里插入图片描述
目的是从房间里面走到外面，比如说从2号房间走到5，不管哪条途径，都能获得100个奖励。

可以做一个右图的表格，列是当前的状态，行是待会要去的房间，-1的意思就是不能去那里。比如从1号房间到5号房间就有100奖励。
在这里插入图片描述
接下来引入一个q值，就是说假设未来每一步都采取最优策略的前提下，你当前采取这个策略（at）的最大幸福度。

比如说第一行第二列的意思是，从0号房间到1号房间之后，每次都采取最好的策略下，得到的幸福度。所以之后每次都走q值最大的位置。所以q learning的目的就是把这个表填好，之后按这个表走就行了。
在这里插入图片描述

用神经网络训练得到q值。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
图神经网络和强化学习

m
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。