P114 增强学习 RL ---没懂,以后再补充

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
sample: 如 70% 的概率向左 20%的概率向右 10% 的概率开火
不是left 分数最高,就直接向左。而是随机sample

在这里插入图片描述
total reward (return) R 就是优化的目标,分数越高约好

在这里插入图片描述

-total reward= loss

Policy Gradient

在这里插入图片描述
当环境是s 时采取 a 措施。 当出现 ss 时,不能采取aa

在这里插入图片描述
出现s1时,执行a1 , 分数为正,代表推荐执行该动作,分数越高,越推荐

version 0
拿每一步的得分作为评估, 因为左转或者右转时不得分,只有射击击中才得分。 会导致,一直进行射击,其他动作不推荐。
在这里插入图片描述
在这里插入图片描述

改进:
version 1 :
将后续之后所有的得分加起来作为评估

在这里插入图片描述
在这里插入图片描述
version3]
好坏是相对的
如果每个行为都能得到正分,但分数有高有低
进行标准化
简单方法是,所有的 G’ 减掉一个b b 是一个基础分
怎么设置b 呢
在这里插入图片描述

在这里插入图片描述
RL 训练非常花时间,收集资料的行为在for 循环里面, 收集一次资料,更新一次参数

Actor Critic

Critic : 评估
在这里插入图片描述
在这里插入图片描述
使用MC: 必须等一场游戏全都玩结束才能得到一笔训练集

在这里插入图片描述

TD 方法不用等一场游戏全部玩结束
前后两个Observation S 的得分差
在这里插入图片描述
用MC 或者 TD 计算有差别
但是结果都算合理,因为假设条件不一样。 一种是前后无关,一种是前后相关

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
共用大部分的net,最后一点不一样
V就是平均实力,超过就是好,低于就是烂

Reward Shaping

reward 非常sparse , 做reward shaping
定额外的reward 指导模型
也就是中间过程中增加一些 reward ,一步一步往前走
在这里插入图片描述

在这里插入图片描述

有时候没有reward
一般在游戏里,reward 有
而在真实情况下,reward 不确定怎么计算
要想一些reward 让机器学

没有reward,怎么学呢

imitation learning

比如自动驾驶中,以人类的驾驶记录为训练资料
比如机械臂,人拿着机械臂示范
在这里插入图片描述
在这里插入图片描述
问题:当出现没有学习到过的情景咋办

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

闪闪发亮的小星星

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值