- 博客(2)
- 收藏
- 关注
原创 强化学习PPO从理论到代码详解(2)---PPO1和PPO2
上一节我们了解了什么是策略梯度,本节开始讲PPO理论之前,我们先提出一个概念,什么在线学习,什么离线学习。
2023-01-02 21:34:34
3850
11
原创 强化学习PPO从理论到代码详解(1)--- 策略梯度Policy gradient
笔者在强化学习的道路上看来很多书,看了很多代码,和很多大佬的博客,只是很多都是侧重一个方面,所以我在吸取百家之长后,决定完完整整的写一回PPO从算法理论到逐行代码手敲和详解的文章。
2022-12-26 21:20:40
3108
8
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人