P114 增强学习 RL ---没懂，以后再补充

最新推荐文章于 2024-06-12 22:18:06 发布

闪闪发亮的小星星

最新推荐文章于 2024-06-12 22:18:06 发布

阅读量98

点赞数

分类专栏：深度学习笔记文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39107270/article/details/135484461

版权

深度学习笔记专栏收录该内容

43 篇文章 0 订阅

订阅专栏

在这里插入图片描述

sample: 如 70% 的概率向左 20%的概率向右 10% 的概率开火
不是left 分数最高，就直接向左。而是随机sample

在这里插入图片描述
total reward (return) R 就是优化的目标，分数越高约好

在这里插入图片描述

-total reward= loss

Policy Gradient

在这里插入图片描述
当环境是s 时采取 a 措施。当出现 ss 时，不能采取aa

在这里插入图片描述
出现s1时，执行a1 , 分数为正，代表推荐执行该动作，分数越高，越推荐

version 0
拿每一步的得分作为评估，因为左转或者右转时不得分，只有射击击中才得分。会导致，一直进行射击，其他动作不推荐。
在这里插入图片描述

改进：
version 1 ：
将后续之后所有的得分加起来作为评估

在这里插入图片描述

version3]
好坏是相对的
如果每个行为都能得到正分，但分数有高有低
进行标准化
简单方法是，所有的 G’ 减掉一个b b 是一个基础分
怎么设置b 呢

在这里插入图片描述
RL 训练非常花时间，收集资料的行为在for 循环里面，收集一次资料，更新一次参数

Actor Critic

Critic : 评估
在这里插入图片描述

使用MC：必须等一场游戏全都玩结束才能得到一笔训练集

在这里插入图片描述

TD 方法不用等一场游戏全部玩结束
前后两个Observation S 的得分差

用MC 或者 TD 计算有差别
但是结果都算合理，因为假设条件不一样。一种是前后无关，一种是前后相关

在这里插入图片描述

在这里插入图片描述
共用大部分的net，最后一点不一样
V就是平均实力，超过就是好，低于就是烂

Reward Shaping

reward 非常sparse , 做reward shaping
定额外的reward 指导模型
也就是中间过程中增加一些 reward ,一步一步往前走
在这里插入图片描述

有时候没有reward
一般在游戏里，reward 有
而在真实情况下，reward 不确定怎么计算
要想一些reward 让机器学

没有reward，怎么学呢

imitation learning

比如自动驾驶中，以人类的驾驶记录为训练资料
比如机械臂，人拿着机械臂示范
在这里插入图片描述

问题：当出现没有学习到过的情景咋办

闪闪发亮的小星星

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
P114 增强学习 RL ---没懂，以后再补充

sample: 如 70% 的概率向左 20%的概率向右 10% 的概率开火不是left 分数最高，就直接向左。而是随机sampletotal reward (return) R 就是优化的目标，分数越高约好。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

闪闪发亮的小星星 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。