强化学习的简单认知

强化学习是一门神奇的学科

DeepMind团队先后在Atari,围棋,以至于最新的AlphaStar在魔兽争霸游戏中,利用强化学习技术,屡次打败世界顶尖玩家,证明了我们栏目的主题:Reinfoecement Learning具有无限的可能。

几个小例子

我先用一段认知科学著名的实验:巴普洛夫的狗 来开头

著名的心理学家巴甫洛夫用狗做了这样一个实验:每次给狗送食物以前打开红灯、响起铃声。这样经过一段时间以后,铃声一响或红灯一亮,狗就开始分泌唾液。

在未经训练之前,狗狗因为吃肉而流口水,是因为本能反应,生物学把它叫做条件反射或者本能反射。但是实验证明:原来并不能引起某种本能反射的中性刺激物(铃声、红灯),由于它总是伴随某个能引起该本能反射的刺激物出现,如此多次重复之后,这个中性刺激物也能引起该本能反射。这就是强化学习的基本原理。那将中性刺激物与反射相连接的过程,我们就把它叫做强化(Reinforcement)。

那映射到我们的强化学习任务:以斗地主为例,“地主”本能反射就是:当一位农民手牌为0,单数我还有手牌的条件时,我就输了,这是显而易见的。那我们经过强化学习的强化作用之后,当我们的牌发到手里,我们就知道当前的手牌状态下能获胜的概率是多少,我的下一步操作的获胜概率是多少……这样我们就获得了比较厉害的打牌能力,赢到三千七百万欢乐豆了。

 强化学习到底学习了什么?

言归正传,强化学习是建立在一个对时间序贯过程模型的基础上的,一种不同于其他系机器学习方法的一种算法,它旨在让智能体(Agent)在环境(Env)中探索,在面临不同状态(State)下做出决策动作(Action),得到奖(Reward),并最大化期望奖励(G),从而得到一个端到端的最优策略(Policy)

不难看出,强化学习利用的正是智能体与环境交互得到交互信息来改进自己的策略。

在交互的过程中,有三个要素:状态,动作与奖励。他们的关系可以由以下一段话来描述:

智能体(Agent)根据从环境中观测到的状态(state),做出动作(action), 在改变环境(environment)状态的同时,得到环境给予的奖励(reward)。

接下来我就将从描述这一过程的MDP(马尔可夫决策过程)开始,对强化学习的原理与经典算法,前沿论文进行讲解与代码实战。

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值