强化学习(1)--简介

一.简介

机器学习现在主流上被分为三种,分别是:

  • 监督学习,如神经网络
  • 无监督学习,如k-means
  • 强化学习

本系列博客主要介绍强化学习方法。在章节进度上与业界大牛David Silver所讲授视频一致。由于比主水平较低,文章中不免有错误,欢迎大家在评论区给出批评指正。

二.详解

强化学习的过程非常像人成长的过程,在一个陌生的环境中,我们不知道现在做什么是对自己最有利的,我们就去尝试,做了之后环境会告诉我们结果是好的还是坏的.强化学习就是这样一个不断试错的过程,最终得到一个较优的策略。以下是强化学习的一些特征:

  1. 没有监督,仅仅只有一个奖励信号。或者说,不直接说是对试错,而是给出一个奖励
  2. 没有即时的反馈,或者说,反馈是有延迟的
  3. 数据是序列化的,数据之间有联系,并不是独立同分布的
  4. Agent当前的动作会影响后序接受到的数据

很重要的一点是,强化学习是基于马尔科夫决策过程(MDP)的。何为马尔科夫决策过程?我们治理只先解释下马尔科夫特性:在随机过程中,下一时刻状态当且仅当与当前状态有关,即,鉴于现在,未来是独立于过去的。用公式表示如下:

MP

MDP模型由五元组(S,A,R,P,γ)表示,其中S为状态,A是动作,R是奖励,P是转移概率,γ为折扣因子。下图为强化学习的整体框架:

RL

简述:Agent在当前状态St下选择动作At,执行后环境给出奖励Rt,然后进入下个状态St+1

三.总结

强化学习在Alpha Go战胜柯洁后彻底火了起来,引发了许多学者的研究与工业界的应用。甚至有“昨日是深度学习,今日是强化学习”这样的说法,足见强化学习的影响。算法本身,主要用于解决序贯决策问题,如机器人在足球比赛中从开始到结束的一系列决策选择。算法的输入为状态集S,动作集A,奖励R,转移概率P(可无),折扣因子γ。算法的输出是最优策略π,可以说是agent在每个不同状态做出特定动作而使累计回报最大的策略。

转载于:https://www.cnblogs.com/jacky-ren/p/9988330.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值