强化学习1——基本概念及研究现状

一、强化学习基础知识

1.1 基本概念

强化学习(Reinforcement Leraning,又称再励学习,评价学习)是一种重要的机器学习算法。强化学习通过感知环境状态信息来学习动态系统的最优策略,通过试错法不断与环境交互来改善自己的行为,并具有对环境的先验知识要求低的优点,是一种可以应用到实时环境中的在线学习方式,因此在智能控制,机器学习等领域得到了广泛研究。 

强化学习的任务就是学习从状态空间到动作空间的映射,其本质就是用参数化的函数来逼近“状态—动作”的映射关系。

1.2 强化学习的目的

强化学习算法的目的就是寻找一个策略\pi ,使得每个状态s的值V^{n}(s)(或Q^{n}(s))都同时达到最大。

所有的强化学习算法的机制都是基于值函数和策略之间的相互作用,如图1 所示。利用值函数可以改善策略,而利用对策略的评价又可以进行值函数的学习,改进值函数。强化学习就是在这种交互过程中,逐步得到最优值函数和最优策略。

                                                                

                                                                    图 2 值函数与策略间的相互作用

1.3 与监督学习和非监督学习的区别

监督式学习就好比你在学习的时候,有一个导师在旁边指点,他知道怎么是对的怎么是错的,但在很多实际问题中,例如 chess,go,这种有成千上万种组合方式的情况,不可能有一个导师知道所有可能的结果。而这时,强化学习会在没有任何标签的情况下,通过先尝试做出一些行为得到一个结果,通过这个结果是对还是错的反馈,调整之前的行为,就这样不断的调整,算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。就好比你有一只还没有训练好的小狗,每当它把屋子弄乱后,就减少美味食物的数量(惩罚),每次表现不错时,就加倍美味食物的数量(奖励),那么小狗最终会学到一个知识,就是把客厅弄乱是不好的行为。

两种学习方式都会学习出输入到输出的一个映射,监督式学习出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出,强化学习出的是给机器的反馈 reward function,即用来判断这个行为是好是坏。另外强化学习的结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏,而监督学习做了比较坏的选择会立刻反馈给算法。而且强化学习面对的输入总是在变化,每当算法做出一个行为,它影

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
强化学习是一种机器学习方法,通过智能体与环境的交互学习来实现目标导向的决策。目前,强化学习算法的研究现状如下: 1. Q-Learning:Q-Learning是一种基于值函数的强化学习算法,通过迭代更新状态-动作值函数来实现最优策略的学习。它在离散状态空间和离散动作空间的问题上表现出色。 2. Deep Q Network (DQN):DQN是一种结合了深度神经网络和Q-Learning强化学习算法。它使用深度神经网络来近似状态-动作值函数,通过经验回放和目标网络来提高学习的稳定性和效果。DQN在处理高维状态空间和连续动作空间的问题上具有优势。 3. Policy Gradient:策略梯度是一类直接优化策略函数的强化学习算法。它通过采样轨迹并计算梯度来更新策略参数,从而实现最优策略的学习。Policy Gradient适用于连续动作空间和高维状态空间的问题。 4. Actor-Critic:Actor-Critic是一种结合了策略梯度和值函数的强化学习算法。它同时学习策略函数和值函数,通过策略梯度更新策略参数,通过值函数估计优势函数来指导策略的改进。Actor-Critic算法在学习效率和稳定性上有一定的优势。 5. Proximal Policy Optimization (PPO):PPO是一种近期较为流行的强化学习算法,它通过限制策略更新的幅度来提高学习的稳定性。PPO在处理连续动作空间和高维状态空间的问题上表现出色。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

路漫求索_CUMT

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值