本文内容源自百度强化学习 7 日入门课程学习整理
感谢百度 PARL 团队李科浇老师的课程讲解
另外一位博主写的很精彩https://blog.csdn.net/qq_42067550/article/details/106871772
1.value-based 与policy-based
- value-based先学习动作价值函数,训练的目的让Q值迭代更新到最优,然后再根据动作价值选择最优的动作。
- policy-based直接输出动作概率,动作的选择不再依赖于价值函数,而是一条策略走到底,看这条策略的好坏。
value-based
- 先求Q值,
- 然后优化的也是Q值,
- 将Q网络调到最优后
- ,输出Q值最大的动作。
- (确定性策略:优化最优后参数固定下来,输入同样的state后,输出同样的action)
policy-based
- 神经网络输入状态state,直接输出动作action
- (随机策略:输出的是动作的概率)