强化学习分类

【强化学习】强化学习分类

在学习强化学习的过程中我们经常会遇到一些陌生的名词分类,什么model-free,offpolicy之类的,学习的时候不明觉厉可能就一眼带过了,但是其实这些分类的名词其实十分有趣,掌握他们十分有助于我们加深对相关强化学习算法的了解。

1、Model-free 和 Model-based

举个栗子:我们刚刚学习强化学习的时候都学习过gridworld这个机器人走迷宫的例子吧,就是有一个迷宫机器人从起点出发通过强化学习的方式选择出到达终点的最优路径。

model-based方式就是我们给机器人地图全开,事先了解好整个游戏环境根据过往的经验选取最优策略,也就是说model-based他能通过想象来预判断接下来将要发生的所有情况. 然后选择这些想象情况中最好的那种. 并依据这种情况来采取下一步的策略

model-free方法就是不依赖模型,这种情况下就是直接将我们的机器人丢到迷宫里面瞎溜达,然后机器人会根据现实环境的反馈采取下一步的动作。这种方法不对环境进行建模也能找到最优的策略。Model-free 的方法有很多, 像 Q learning, Sarsa, Policy Gradients 都是从环境中得到反馈然后从中学习。
在这里插入图片描述

2、Policy-based RL 和 Value-based RL

说道Policy与Value就不得不提到他们的两大代表算法,Policy-based有 Policy Grandient;Value-based有Q-Learning。根据这两种算法我们很清晰的就能看出他们之间的区别,Policy-based算法是通过对策略抽样训练出一个概率分布,并增强回报值高的动作被选中的概率。而Value-based是通过潜在奖励计算出动作回报期望来作为选取动作的依据。
Policy基于策略的算法在连续动作空间上比起Value-based更有优势
还有一种nb的算法Actor-Critic他结合了这两类方法的优势之处, actor 会基于策略的概率分布做出动作,而 critic 会对做出的动作给出动作的价值, 这样就在原有的 policy gradients 上加速了学习过程。
在这里插入图片描述

3、回合更新和单步更新

回合更新和单步更新, 假设强化学习就是在玩游戏, 游戏回合有开始和结束. 回合更新指的是游戏开始后,我们要等到打完这一局我们才对这局游戏的经历进行总结学习新的策略。 而单步更新则是在游戏进行中每一步都在更新,这样就可以一边游戏一边学习不用等到回合结束。
再来说说方法, Monte-carlo learning 和基础版的 policy gradients 等 都是回合更新制, Qlearning, Sarsa, 升级版的 policy gradients 等都是单步更新制. 因为单步更新更有效率, 所以现在大多方法都是基于单步更新。 比如有的强化学习问题并不属于回合问题。
在这里插入图片描述

4、在线学习和离线学习

在线学习是指我本人必须在场,且必须是本人边玩边学习;离线学习是指可以选择自己玩也可以选择看着别人玩。通过看着别人玩学习别人的行为准则,学习同样是从过往经验中学习,但是这些过往经验没必要是自己的经历,任何人的经历都可以用来学习,或者不必要边玩边学习,白天储存下来玩耍的记忆,通过离线学习学习白天的记忆
最典型的在线学习就是Sarsa和Sarsa(λ);典型的离线学习算法Q Learning和Deep Q Network
在这里插入图片描述

强化学习在图像分类中的应用相对较少,因为强化学习更多地用于探索与环境交互、学习最优决策策略的问题。然而,如果你想使用强化学习来实现图像分类,可以通过以下步骤进行: 1. 定义状态空间:将图像作为状态,并将其表示为强化学习算法可以处理的形式。可以使用特征提取技术(如卷积神经网络)来提取图像的特征。 2. 定义动作空间:在图像分类中,动作空间通常是一个离散的动作集合,代表不同的类别。 3. 定义奖励函数:奖励函数用于评估算法在不同状态下采取不同动作的好坏。在图像分类中,可以使用预定义的准确率或交叉熵损失作为奖励信号。 4. 定义马尔可夫决策过程(Markov Decision Process,MDP):将图像分类问题建模为一个马尔可夫决策过程,其中状态、动作和奖励函数定义如上所述。 5. 选择强化学习算法:根据实际情况选择适当的强化学习算法,如Q-learning、Deep Q-Networks(DQN)或Proximal Policy Optimization(PPO)等。 6. 训练模型:使用强化学习算法进行模型训练,通过与环境交互,优化策略以提高图像分类的准确性。 7. 测试与评估:使用训练好的模型对新的图像进行分类,并对分类结果进行评估。 需要注意的是,强化学习在图像分类中面临的挑战包括状态空间的定义、奖励函数的设计和训练时间的消耗等。因此,在实际应用中,传统的监督学习方法(如卷积神经网络)往往更加常用和有效。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值