- 博客(1)
- 收藏
- 关注
原创 强化学习笔记:(王树森+李宏毅课程综合)Q-learning、Policy Gradient、 A-C.
policy based方法,函数近似近似,建模,神经网络目标一种简化的策略梯度门特卡罗近似,是无偏估计A_C方式。
2023-12-11 21:41:50 151
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
policy based方法,函数近似近似,建模,神经网络目标一种简化的策略梯度门特卡罗近似,是无偏估计A_C方式。
2023-12-11 21:41:50 151
TA创建的收藏夹 TA关注的收藏夹
TA关注的人