人工智能之强化学习-给机器一块糖让她变得更聪明_深度学习算法让机器更聪明-CSDN博客

本文链接：https://blog.csdn.net/weixin_42504919/article/details/104441510

2016年3月有件大事，人工智能围棋机器人AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战，以4比1的总比分获胜，AlphaGo一举成名，人工智能吸粉无数。

接下来一年，AlphaGo版本机器人更是在围棋界所向披靡，2017年5月，在中国乌镇围棋峰会上，AlphaGo Master与排名世界第一的世界围棋冠军柯洁对战，以3比0的总比分获胜。围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平。

一年后，AlphaGo的研发团队Deepmind又推出了最强版的围棋机器人AlphaGo Zero。AlphaGo Zero是自学能力超强的机器人，经过短短3天的自我训练，自我对弈的棋局数量为490万盘，就强势打败了此前战胜李世石的旧版AlphaGo。然后继续自我训练，40天后出关，击败了打败柯洁的AlphaGo Master。AlphaGo Zero的一大核心就是强化学习。

最近很多正在学习flare老师的实战课程的小伙伴都对强化学习感兴趣，那flare老师今天就来和大家说说听上去高大上的强化学习，也就是reinforcement learning。

基本概念
强化学习，根据机器行动给予奖励或惩罚，让机器对外部环境做出反应自己决定接下来做什么：做对了，奖励一下，给颗糖；做错了，惩罚一下，拿走糖。嗯，核心就这么简单。我们来看个简单的例子：小朋友学走路

在这里插入图片描述
以下是孩子学习走路时将采取的步骤：

观察大人的走路方式：两条腿走路，一次走一步。掌握了这个概念，他/她可以尝试这么去重复步骤。
但是很快他/她就会明白，走路之前必须站起来！这是尝试走路时面临的挑战。因此，他/她试图起身，蹒跚和滑倒，但仍然决定要起身。
接下来还有另一个挑战要应对。站起来很容易，但保持静止是另外一个任务！抓住空气，寻找支持，他/她设法保持站立。
现在，孩子的真正任务是开始走路。但是说起来比实际做起来容易。有很多事情要记住，例如平衡体重，决定下一步放哪只脚以及在哪里放脚。
听起来像是一项艰巨的任务，对不对？起身并开始行走实际上有点挑战，但是我们已经习惯了它，以至于我们不会对任务感到困惑。但是，对一个小孩来说这就很难了。

让我们对上面的示例进行形式化，该示例的“问题陈述”是走路，为了能成功平稳的行走，他/她尝试从一种状态（即他/她采取的每个步骤）发展到另一种状态。当孩子完成任务的子模块时（即走几步），他会得到奖励（比如说糖果），而当他/她不能走路时，他不会得到任何糖果（也就是负奖励）。这是对强化学习问题的简化描述。在这里插入图片描述
第一幅图是介绍强化学习常见的基本原理图，其中：Agent代理：一个假定的实体，可以在环境中执行操作以获取一定的回报，类比例子里的小朋友Environment环境：代理必须面对的场景。reward奖励：代理执行特定操作或任务时，给予的回报。state状态：状态是指代理执行动作后返回的状态。action行动：代理根据环境执行操作