强化学习Reinforcement Learning

Abstract

Abstract

背景

强化学习算法概念


背景

(1) 强化学习的历史发展

1956年Bellman提出了动态规划方法。
1977年Werbos提出只适应动态规划算法。
1988年sutton提出时间差分算法。
1992年Watkins 提出Q-learning 算法。
1994年rummery 提出Saras算法。
1996年Bersekas提出解决随机过程中优化控制的神经动态规划方法。
2006年Kocsis提出了置信上限树算法。
2009年kewis提出反馈控制只适应动态规划算法。
2014年silver提出确定性策略梯度(Policy Gradents)算法。
2015年Google-deepmind 提出Deep-Q-Network算法。

(2) 强化学习概念起源

强化学习机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论控制论运筹学信息论、仿真优化、多主体系统学习群体智能统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。

(3) 强化学习与监督学习、非监督学习区别

  • Supervised learning:是从一个已经标记的训练集中进行学习,训练集中每一个样本特征可以视为是对该situation的描述,而其label可以视为是应该执行的正确的action,但是有监督的学习不能学习交互的情景,因为在交互的问题中获得期望行为的样例是非常不实际的,agent只能从自己的经历(experience)中进行学习,而experience中采取的行为并一定是最优的。这时利用RL就非常合适,因为RL不是利用正确的行为来指导,而是利用已有的训练信息来对行为进行评价。
  • Unsupervised learning:因为RL利用的并不是采取正确行动的experience,从这一点来看和无监督的学习确实有点像,但是还是不一样的,无监督的学习的目的可以说是从一堆未标记样本中发现隐藏的结构(通过数据之间的关联性将数据分类),而RL的目的是最大化reward signal。
  • Reinforcement learning:强化学习的目标是使得回报reward最大化maximize。强化学习和非监督学习的关键部分就是回报的选择。强化学习是学习状态和行为之间的映射关系,agent必须通过不断尝试才能发现采取哪种行为能够产生最大回报。

总的来说,RL与其他机器学习算法不同的地方在于:其中没有监督者,只有一个reward信号;反馈是延迟的,不是立即生成的;时间在RL中具有重要的意义;agent的行为会影响之后一系列的data。

reference:

https://blog.csdn.net/qq_20499063/article/details/78762596

https://blog.csdn.net/qq_20499063/article/details/78762596

强化学习算法

在标准RL框架[10]中,agent在许多时间步长上与外部环境进行交互。 在此,s是所有可能状态的集合,而a是所有可能动作的集合。 在每个时间步t,处于状态st的代理从环境中感知观察信息Ot,采取行动并从奖励源Rt接收反馈。 然后,代理转换到新状态st + 1,并确定与该转换关联的奖励Rt + 1(st,at,st + 1)。 代理可以从上次访问的状态中选择一个动作。 强化学习代理的目标是以最小的延迟收集最大可能的回报。

reference:

  1. Leslie Pack Kaelbling, Michael L Littman, and Andrew W Moore. Reinforcement learning: A survey. Journal of artificial intelligence research, 4:237–285, 1996.

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天狼啸月1990

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值