强化学习资料
前情提要
- 强化学习入门总结
- 马尔可夫决策
- 条件随机场(CRF)和隐马尔科夫模型(HMM)最大区别在哪里?CRF的全局最优体现在哪里?
- ϵ−greedy algorithm:每次选择执行的行为是估计值最大的行为,小概率的情况下,随机选择其他的行为。
- 行为策略(Behavior Policy)和目标策略(Target Policy):
算法
- Q-learning
- Sarsa
- DQN
- Policy Gradients
- Actor-critic
- MDP(马尔科夫决策)
核心问题
如何设计算法:
Step 1:将实际问题建模成马尔可夫决策过程,抽象出五元组, 其中reward与实际目标相关联
Step 2:根据动作是否连续选择对应的算法
动作离散:DQN
动作连续:Policy Gradients,Actor-Critic,DDPG
Step 3:根据算法写代码