深度学习之感性理解-强化学习简介

基本介绍

简单来说,就是让机器根据环境,动作和奖励,进行自主学习,来更好的完成目的。

举个例子:
比如王者荣耀,我们的目的是打钱,当你的英雄只有10血的时候(环境),面对野区的怪物,你有2种选择,一种是逃命(动作),一种就打到死(动作),如果你选择了逃命,没打到钱(奖励),回水池加满血了再来吧。如果选择继续打,那可能就挂了,要惩罚,等几秒钟复活吧(负的奖励)。如果机器选择打到死,那就得到负的奖励,那下次再遇到类似情况,他肯定会去选正的奖励,自然就变得智能了。就是通过类似的不断的进行动作,奖励,从而让机器学会一种奖励最大化的行为,来完成目的。

再比如最有名的AlphaGo大白打败李世石,也是用了强化学习,肯定比这个更加高级啦。
在这里插入图片描述
在这里插入图片描述

为什么不能用监督学习

如果采取监督学习,那应该想成面对某个环境,有个老师会告诉机器说,你走这步是最好的。但是这样会有个问题,因为大多环境是无法穷举的,没办法告诉机器所有环境下应该怎么做最好,所以只能进行无监督学习,通过设定奖励,让机器自己去判断应该怎么做。

目前最多的应用

强化学习目前最多的用于学习视频游戏,主要原理是跟人一样,通过图像来进行选择,也就是图像就是环境,动作无非就是一些基本的操作,移动,跳跃等等,然后让游戏给出相应的奖励。
比如下面这个例子:
在这里插入图片描述
通过类似的场景,让机器不断得行动,来最大化他的奖励。

强化学习基本结构-actor行动者

在这里插入图片描述
我们可以看到,最基本的actor的结构,就是看到游戏画面,然后输入神经网络处理,最后来告诉机器每个行动的概率,机器会选概率最大的那个行动。有了神经网络,就可以进行不断的训练,使得朝奖励最大的方向前进。具体的细节和公式就不讲了,感性理解吧。

总结

简单来说,就是机器从很多个游戏场景里提出若干个场景,进行训练,得出相应的动作和奖励,从而选出在某个场景下,应该选择哪种动作,即可让机器自己玩游戏了。

好了,今天就到这里了,希望对学习理解有帮助,大神看见勿喷,仅为自己的学习理解,能力有限,请多包涵,图片均来自网络,侵删。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值