- 博客(4)
- 收藏
- 关注
原创 【学习笔记】强化学习 Chapter 3 Finite Markov Decision Processes
强化学习经典教材第三章:马尔可夫决策过程部分习题解答
2023-01-08 03:57:53
266
原创 【学习笔记】强化学习 Gradient Bandit Algorithm
本文对gradient bandit algorithm做了简单的介绍和推导,并证明了它与随机梯度提升方法的等价性
2022-12-31 20:45:56
608
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅