深度学习之感性理解-强化学习简介

最新推荐文章于 2019-09-04 22:34:17 发布

王伟王胖胖

最新推荐文章于 2019-09-04 22:34:17 发布

阅读量225

点赞数

分类专栏：深度学习强化学习文章标签：深度学习人工智能机器学习强化学习

本文链接：https://blog.csdn.net/wangwei19871103/article/details/90290894

版权

深度学习同时被 2 个专栏收录

75 篇文章 13 订阅

订阅专栏

强化学习

15 篇文章 2 订阅

订阅专栏

深度学习之感性理解-强化学习简介

基本介绍

简单来说，就是让机器根据环境，动作和奖励，进行自主学习，来更好的完成目的。

举个例子：
比如王者荣耀，我们的目的是打钱，当你的英雄只有10血的时候（环境），面对野区的怪物，你有2种选择，一种是逃命（动作），一种就打到死（动作），如果你选择了逃命，没打到钱（奖励），回水池加满血了再来吧。如果选择继续打，那可能就挂了，要惩罚，等几秒钟复活吧（负的奖励）。如果机器选择打到死，那就得到负的奖励，那下次再遇到类似情况，他肯定会去选正的奖励，自然就变得智能了。就是通过类似的不断的进行动作，奖励，从而让机器学会一种奖励最大化的行为，来完成目的。

再比如最有名的AlphaGo大白打败李世石，也是用了强化学习，肯定比这个更加高级啦。
在这里插入图片描述

为什么不能用监督学习

如果采取监督学习，那应该想成面对某个环境，有个老师会告诉机器说，你走这步是最好的。但是这样会有个问题，因为大多环境是无法穷举的，没办法告诉机器所有环境下应该怎么做最好，所以只能进行无监督学习，通过设定奖励，让机器自己去判断应该怎么做。

目前最多的应用

强化学习目前最多的用于学习视频游戏，主要原理是跟人一样，通过图像来进行选择，也就是图像就是环境，动作无非就是一些基本的操作，移动，跳跃等等，然后让游戏给出相应的奖励。
比如下面这个例子：
在这里插入图片描述
通过类似的场景，让机器不断得行动，来最大化他的奖励。

强化学习基本结构-actor行动者

在这里插入图片描述
我们可以看到，最基本的actor的结构，就是看到游戏画面，然后输入神经网络处理，最后来告诉机器每个行动的概率，机器会选概率最大的那个行动。有了神经网络，就可以进行不断的训练，使得朝奖励最大的方向前进。具体的细节和公式就不讲了，感性理解吧。

总结

简单来说，就是机器从很多个游戏场景里提出若干个场景，进行训练，得出相应的动作和奖励，从而选出在某个场景下，应该选择哪种动作，即可让机器自己玩游戏了。

好了，今天就到这里了，希望对学习理解有帮助，大神看见勿喷，仅为自己的学习理解，能力有限，请多包涵，图片均来自网络，侵删。

王伟王胖胖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习之感性理解-强化学习简介

深度学习之感性理解-强化学习简介基本介绍为什么不能用监督学习目前最多的应用强化学习基本结构-actor行动者总结基本介绍简单来说，就是让机器根据环境，动作和奖励，进行自主学习，来更好的完成目的。举个例子：比如王者荣耀，我们的目的是打钱，当你的英雄只有10血的时候（环境），面对野区的怪物，你有2种选择，一种是逃命（动作），一种就打到死（动作），如果你选择了逃命，没打到钱（奖励），回水池加满血...
复制链接

扫一扫