https://zhuanlan.zhihu.com/p/45894158
内容:
model-based和model-free的概念
off-policy和on-policy的概念
基于值函数和基于策略梯度的
RL和SL的一些碎碎念(慎读)
RL中的分类
RL过程中predict和control的概念
https://zhuanlan.zhihu.com/p/45894158
内容:
model-based和model-free的概念
off-policy和on-policy的概念
基于值函数和基于策略梯度的
RL和SL的一些碎碎念(慎读)
RL中的分类
RL过程中predict和control的概念