《深度学习》学习笔记(十)

本篇博文主要介绍强化学习reforcement learning

What is reinforcement learning(RL)

RL不知道好还是不好
在这里插入图片描述
RL的结构:
在这里插入图片描述
下面举例子讲RL:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
每盘棋局结束的时候,才能得到reward,学习的过程就是最大化reward的过程。
在这里插入图片描述
下面的network可以选择CNN,实际做的时候是看的参数FNN
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
reward是采取行为时立即得到,return是整个episode中reward的加和(total reward),就是我们想要最大化的。
在这里插入图片描述
难点:如何找到一组参数让R越大越好

Policy Gradient

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
每个行为都会影响接下来的互动
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
拿来训练的actor与跟环境互动的actor是同样的。(on-policy)
不同时,就称为off-policy
在这里插入图片描述
在这里插入图片描述

Actor-Critic

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
两种方法都是可以算出来出reward的,只不过背后的假设是不一样的。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Reward Shaping

在这里插入图片描述
reward shaping在RL中使用的例子:
在这里插入图片描述
不断看到新东西
在这里插入图片描述

No Reward:Learning from demonstration

真实环境中,有时候根本不知道怎么定reward
在这里插入图片描述
在这里插入图片描述
还有一些其他的问题,the agent will copy every behavior, even irrelevant actions.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值