Reinforcement Learning 一:历史发展背景与介绍

大家好,今天跟大家分享一下强化学习。


1.强化学习的历史发展

  1. 1956年Bellman提出了动态规划方法。
  2. 1977年Werbos提出只适应动态规划算法。
  3. 1988年sutton提出时间差分算法。
  4. 1992年Watkins 提出Q-learning 算法。
  5. 1994年rummery 提出Saras算法。
  6. 1996年Bersekas提出解决随机过程中优化控制的神经动态规划方法。
  7. 2006年Kocsis提出了置信上限树算法。
  8. 2009年kewis提出反馈控制只适应动态规划算法。
  9. 2014年silver提出确定性策略梯度(Policy Gradents)算法。
  10. 2015年Google-deepmind 提出Deep-Q-Network算法。

2.强化学习的介绍

  1. Supervised learning:监督学习有标签,能告诉你训练结果的对与错。可以看成根据监督者的先验知识提供的先例进行监督学习。
  2. Unsupervised learning:非监督学习无标签,算法能够通过数据之间的关联性将数据分类进行处理。
  3. Reinforcement learning:强化学习的目标是使得回报最大化。强化学习和非监督学习的关键部分就是回报的选择。强化学习是学习状态和行为之间的映射关系,以使得数值回报达到最大化。换句话说,在未知采取何种行为的情况下,学习者必须通过不断尝试才能发现采取哪种行为能够产生最大回报。

随机博弈包括两个框架:
1.马尔科夫决策过程(MDP)MDP包括一个智能体和多个状态。
2.矩阵博弈矩阵博弈包括多个智能体和一个状态。

随机博弈可以看成是多个智能体和多个状态的问题。


3.常用强化学习算法介绍

强化学习从提出到现在,也差不多半个世纪左右。到目前为止,常见的强化学习的算法有下面几种,以及不同的分类。

这里写图片描述

  1. Model-free:不尝试去理解环境, 环境给什么就是什么,一步一步等待真实世界的反馈, 再根据反馈采取下一步行动。
  2. Model-based:先理解真实世界是怎样的, 并建立一个模型来模拟现实世界的反馈,通过想象来预判断接下来将要发生的所有情况,然后选择这些想象情况中最好的那种,并依据这种情况来采取下一步的策略。它比 Model-free 多出了一个虚拟环境,还有想象力。
  3. Policy based:通过感官分析所处的环境, 直接输出下一步要采取的各种动作的概率, 然后根据概率采取行动。
  4. Value based:输出的是所有动作的价值, 根据最高价值来选动作,这类方法不能选取连续的动作。
  5. Monte-carlo update:游戏开始后, 要等待游戏结束, 然后再总结这一回合中的所有转折点, 再更新行为准则。
  6. Temporal-difference update:在游戏进行中每一步都在更新, 不用等待游戏的结束, 这样就能边玩边学习了。
  7. On-policy:必须本人在场, 并且一定是本人边玩边学习。
  8. Off-policy:可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则。

4.基本的数学知识和理论

1.LS算法
inputs:x(n) outputs:y(n)

y(n)=ax(n)+b;y(n)=ϕTθ

ϕT=[x(n),1];θ=[a,b]

成本函数为:

V=n=1N
  • 5
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习是一种机器学习方法,它致力于教会智能体在一个动态环境中做出最优决策。在强化学习中,智能体通过不断与环境进行交互来学习,并且根据环境的反馈来调整自己的行为。 强化学习的一个核心概念是“奖励”,它是环境对智能体行为的评价。智能体的目标是通过选择能够最大化长期奖励累积的行为策略来学习。在学习的过程中,智能体通过试错和学习的方法逐步改进自己的决策策略。 强化学习涉及到很多基本元素,比如:状态、动作、策略和价值函数。状态是指代表环境的信息,动作是智能体可以执行的动作选择,策略是智能体根据当前状态选择动作的方法,价值函数是用来评估每个状态或动作的价值。这些元素相互作用,并通过学习算法来更新和改善,使得智能体能够做出更好的决策。 强化学习有很多不同的算法,其中最著名的是Q-learning和Deep Q-Network(DQN)。Q-learning是一种基于值函数的学习方法,它通过不断更新状态-动作对的价值来优化策略。而DQN则是在Q-learning的基础上引入了深度神经网络,使得智能体能够处理更复杂的环境和任务。 总之,强化学习是一种通过交互式学习来教会智能体做出最优决策的方法。它在许多领域有广泛的应用,比如人工智能、自动驾驶、游戏AI等。通过不断的试错和学习,智能体可以不断改进自己的行为策略,达到最优性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值