强化学习(RL)基本概念

强化学习不像监督学习那样有自己明确的目标,强化学习可以看成是一个记分的系统,记住及其获得低分和高分的行为,然后不断要求机器能取得高分的同时避免低分。你也可以把它当成分数导向的系统,跟监督学习的标签一样。


整个强化学习系统由**智能体(Agent)、观察(Observation)、奖赏(Reward)、动作(Action)和环境(Environment)**五部分组成,系统示意图如下图所示。

![这里写图片描述](https://img-blog.csdn.net/20180609150501375?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTIzMzk3NDM=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

我们根据环境将机器分为两种:不理解环境(model-free RL) 和理解环境的(model-base RL).

不理解环境 (Model-free learning)——对地球一无所知…
1.机器人不懂得环境是什么样子,它会通过自己在环境中不断试错,以获得行为上的改变。
2.这类模型常用的有Q-learning(Valued-based Approach,Learning an Critic),Policy Gradients(Policy-based Approach,Learning an Actor).

理解环境的 (Model-base learning࿰

  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值