- 博客(4)
- 收藏
- 关注
原创 《强化学习》基于策略的方法
基于策略RL和基于值函数RL直觉 不同种类的策略 策略梯度形式 LOG技巧REINFORCE with baseline Actor-CriticAdvantage Actor Critic policy based 和 Value based...
2018-06-20 16:36:17 3884
原创 《强化学习》 模型无关方法
模型无关学习 Monte-Carlo & Temporal Difference; Q-learning 探索与利用on-policy 和 off-policySARSAExpected value SARSA对比
2018-06-04 16:57:59 1433
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人