前言:最近学习强化学习的一些理论,主要是跟着bilibili中莫烦大神的视频学习练习的,此处是一些个人笔记。详细内容可见莫烦大神视频资源。
视频资源:
https://www.bilibili.com/video/BV13W411Y75P?from=search&seid=18050089611052352050
强化学习基本概念
- 强化学习的算法
- 通过价值选行为:(1)Q learning ; (2) Sarsa ; (3) Deep Q network
- 直接选行为: policy gradients
- 想象环境并从中学习:model based RL
- 强化学习的分类
(1)基于环境
- 不理解环境:model free RL
- 理解环境:model based RL 多出一个步骤——为现实环境建模
(2)基于概率/价值 - 基于概率 policy-based:根据概率选择动作,每个动作都有可能选到
- 基于价值 value-based:选择价值最高的,对于连续动作无能为力
(3)更新方式 - 回合更新
- 单步更新
(4)学习方式 - 在线学习(on-policy):必须是自己参与学习 [Sarsa]
- 离线学习(off-policy):可以借鉴其他人的学习经验 [Q learning、 DQN]
Q learning
s为状态,a为动作,R为奖励值
Q ( s 1 , a 2 ) Q(s_1,a_2) Q(s1,a2)为根据q table 估计的q值, R + r ∗ m a x Q ( s 2 ) R+r*maxQ(s_2) R+r∗m