文章目录
深度强化学习
概述
深度强化学包含深度学习和强化学习两个概念,简单来说就是将是深度神经网络与传统强化学习结合起来,突破了传统强化学习的瓶颈
深度强化学习是一种无监督学习
分类
-
model_base VS model_free
- model_base:事先制定策略
- model_free: 事先不制定策略,让agent从环境的反馈中学习
-
基于价值 VS 基于策略
- 基于价值:通过计算奖励选取动作
- 对策略抽样训练出一个概率分布,并增强回报值高的动作被选中的概率
-
回合更新 VS 单步更新
- 回合更新: 每个回合结束对策略进行更新
- 单步更新:每走一步更新一下策略(更有效率)
-
在线学习 VS 离线学习
- 在线学习:根据环境的反馈实时学习
- 离线学习:将进行过的状态存下来,之后的一段时间后回想学习
发展
传统强化学习
Q-learning
一个回合有很多个状态,在每个状态可以选择若干动作,每个动作执行之后会达到不同的状态,同时在执行玩这个动作后环境会反馈相应的奖励.
Q_learning 使用一个矩阵存储每一个状态转换过程的信息,选取这个动作后得到正反馈,那么就会增加选取这个动作的概率,相反减少概率,之后每次根据表中对应状态选择概率最大的动作